Начинающие специалисты по данным, вот что вы должны знать, чтобы получить свою первую работу в области науки о данных

Это мой ответ на вопрос, который я нашел в Интернете:

Как начинающий студент, который хочет заняться AI/ML и наукой о данных, на чем мне следует сосредоточиться?

Наука о данных — сложная и быстро развивающаяся область. Вломиться в него — сложная задача, особенно если вы самоучка, как я. У меня не было структурированного учебного плана, поэтому определение направлений работы было для меня чем-то вроде игры в догадки.

Итак, чтобы всем было легко, вот пять областей, на которых вы должны сосредоточиться, чтобы получить свою первую работу в области науки о данных.

Хотите прорваться в науку о данных? Пройдите мой бесплатный курс по основам науки о данных и начните работу с проектами по регрессии и классификации!

Манипуляция данными

Во-первых, вам нужно знать, как получать данные и манипулировать ими.

Скорее всего, вам потребуется доступ к базе данных для извлечения набора данных. Важно, чтобы вы знали основы SQL. По крайней мере, вы должны знать, как:

  • запросить данные между двумя датами
  • объединять столы вместе
  • отфильтровать свою таблицу

Конечно, знание оконных функций и общих табличных выражений (CTE) является плюсом.

Затем, когда у вас есть данные, вы должны знать, как ими манипулировать. Реальные наборы данных неприятны. В них есть пропущенные значения, выбросы, а столбцы имеют неясные метки. Поэтому вы должны знать, как решать эти различные проблемы и извлекать значимую информацию.

Для любых манипуляций с данными необходимы Pandas и NumPy.

Знай свои алгоритмы

Во-вторых, вы должны знать свои алгоритмы.

Задачи регрессии, классификации и кластеризации являются общими для специалистов по данным. Вы должны знать, как реализовать алгоритмы для каждой задачи. У вас также должна быть некоторая интуиция относительно того, какой алгоритм в целом работает лучше всего.

Вот список основных алгоритмов, которые вы должны знать:

Регрессия

  • Линейная регрессия
  • Регрессия Лассо и Риджа
  • Деревья решений (случайный лес, бэггинг, бустинг)

Классификация

  • Логистическая регрессия
  • Деревья решений
  • SVM

Кластеризация

  • Кластеризация K-средних
  • Иерархическая кластеризация

Я не включил глубокое обучение в этот список, потому что оно редко требуется для работы начального уровня. Я рекомендую сначала сосредоточиться на основах, прежде чем переходить к глубокому обучению, если вам когда-нибудь понадобится.

Интерпретируйте свои показатели оценки

В-третьих, у вас должно быть глубокое понимание ваших показателей оценки.

Знание того, как интерпретировать ваши показатели оценки, является ключом к получению вашей первой работы. Мы должны понимать, что как специалисты по данным мы общаемся с нетехническими людьми. Для них припоминание, точность, F1-Score или MAE не имеют значения. Частью нашей работы является перевод наших научных результатов на язык неспециалистов.

Кроме того, вы должны знать, как выбрать подходящую метрику для вашей проблемы. Например, я проводил собеседования с кандидатами, которые использовали точность для оценки модели классификации на несбалансированном наборе данных. Здесь использование абсолютной метрики — огромная ошибка.

Таким образом, вы должны тренировать свои навыки, чтобы выбрать правильную метрику для правильной ситуации.

Оттачивайте научный метод

Название должности говорит само за себя: были учеными. Важно показать, что мы следуем научному методу и проводим эксперименты.

В этой сфере много аспектов. Во-первых, давайте рассмотрим создание надежного набора тестов. Прежде всего, ваш тестовый набор должен оставаться постоянным на протяжении всего эксперимента. Он также должен отражать реальное применение вашего решения.

Например, предположим, что вы работаете над чат-ботом. Тогда ваш тестовый набор не должен содержать только идеально написанные предложения, без грамматических и пунктуационных ошибок. На самом деле люди делают ошибки, используют сокращения, а иногда и вовсе не используют знаки препинания! Ваш тестовый набор должен отражать тип данных, с которыми придется работать вашему алгоритму.

Еще один способ показать, что вы следуете научному методу, — изменять по одной переменной за раз. Например, не разрабатывайте новую функцию и не меняйте алгоритм одновременно. Если ваша оценочная метрика улучшится или ухудшится, вы не сможете сказать, связано ли это с новой функцией или с новым алгоритмом.

Всегда держите все постоянным и меняйте одну переменную за раз. Конечно, отслеживайте свои эксперименты и оценивайте каждый из них.

Будьте готовы объяснить свою работу

Наконец, вы должны быть в состоянии объяснить каждый шаг вашей работы.

Опять же, я проводил собеседования с кандидатами, которые не могли оправдать шаги, которые они предприняли в проекте! Принять правильное решение недостаточно, вы должны уметь его обосновать.

На каждом этапе проекта вы должны спрашивать себя: зачем я это делаю?

Это поможет вам глубже понять свою работу и обосновать свое мышление.

Вы должны объяснить, почему вы исключили эту колонку.

Вы должны объяснить, почему вы заполнили пропущенные значения, используя среднее вместо медианы.

Вы должны знать, почему вы разработали эту новую переменную.

Вы должны объяснить, почему выбрали именно этот показатель оценки.

Вы должны объяснить, как вы выбрали свою чемпионскую модель.

Если вы обнаружите, что делаете шаг вне интуиции без каких-либо данных, подтверждающих его, то, вероятно, это плохая идея.

Лучше провалить эксперимент и знать почему, чем провести успешный эксперимент и не знать почему.

Кроме того, вы можете быть уверены, что этот тип вопроса возникнет на собеседовании! Я знаю, что мне нравится их спрашивать, потому что это отделяет хороших специалистов по данным от посредственных.

Вот оно! Сосредоточьтесь на этих пяти областях, и вы гарантированно прорветесь в область науки о данных.

Я надеюсь, что вы нашли эту статью полезной!

Не забудьте подписаться, чтобы получать больше статей, бесплатных подарков, объявлений о курсах и приглашений на VIP-мероприятия!

Кроме того, ознакомьтесь с моим бесплатным курсом, чтобы начать работу с наукой о данных!