Недавно я построил прогностическую модель, которая вскоре принесет огромную пользу, но я не специалист по данным и не имею формального образования в области науки о данных. Это заставило меня задуматься; почему так много промышленности и образования существует вокруг такой специализированной науки о данных? Еще в 2012 году в Harvard Business Review была опубликована статья, в которой Data Scientist провозглашается самой сексуальной профессией 21 века. С тех пор тысячи рабочих мест были созданы в области науки о данных для применения сложных статистических моделей к бизнес-задачам. Впервые в истории стало практичным применять глубокую математику к обычным задачам. Многие компании и целые отрасли были основаны на практике науки о данных.

Эта статья опередила свое время во многих отношениях. В статье утверждается, что другими навыками, общими для специалистов по данным, должны быть любознательность, способность писать код, визуализировать данные, анализировать данные и эффективно общаться. Между аналитиками данных и статистиками существует резкое различие, несмотря на сходство.

Обучение науке о данных

Следуя популярности широко распространенной науки о данных и интересу к ней, многие колледжи и университеты в течение 2010-х годов запустили учебные программы по науке о данных, чтобы не отставать от этого нового спроса. Инструментарий в то время был относительно примитивным по сравнению с сегодняшними стандартами и включал статистические модели в Python или R, которые должны были быть тщательно отобраны и настроены обученными профессионалами, что само по себе было искусством, а результаты интерпретировались для максимизации эффективности. различные методы подсчета очков. Ранние образовательные программы были сосредоточены на программировании и статистике в качестве основной учебной программы для подготовки специалистов по данным, поскольку обучение модели и ее интерпретация были необходимыми навыками до появления современных инструментов. Со временем развивалась и индустрия. Основная статистика была абстрагирована от специалиста по обработке и анализу данных, и вместо этого модель могла оптимизироваться для различных методов оценки. Код, необходимый для обучения моделей и выполнения логических выводов, был сокращен до почти полного абстрагирования. Многие современные программы по науке о данных, преподающиеся сегодня в университетах, основаны на устаревших навыках, появившихся в результате популярности ранней науки о данных, и им еще предстоит адаптироваться.

Чем занимаются специалисты по данным сегодня?

Это сильно различается, как это обычно бывает с такой технологической революцией. Многие опытные специалисты по данным по-прежнему верят в создание моделей вручную и в модели ручной настройки. Многие другие предпочитают использовать сложные инструменты для повышения точности своей модели и, в конечном счете, реализовать большее количество готовых к производству моделей. Как описано в вышеупомянутой статье HBR, определение Data Scientist сильно различается. Некоторые компании полагаются на специалистов по обработке и анализу данных для разработки тестов для мониторинга показателей и принятия решений с использованием относительно небольшого количества статистических принципов. Другие компании полагаются на специалистов по обработке и анализу данных для разработки новых статистических моделей или усовершенствования существующих статистических моделей для повышения производительности своих продуктов или конвейеров прогнозирования. Более того, сегодня есть много компаний, которые полагаются на специалистов по данным для выполнения многих из тех же функций, что и современные аналитики; написание SQL-запросов для управления данными и доставки данных бизнесу в виде электронных таблиц или визуализаций данных. При таком широком распределении обязанностей на рынке существует много путаницы, и обычно принимается множество различных определений.

Почему AutoML набирает обороты?

Для полного раскрытия, я классифицирую себя как Data Engineer, а не Data Scientist. Я построил конвейеры данных для поддержки прогнозного моделирования, но меня не интересует создание или настройка моделей. Продукты AutoML, такие как Azure AutoML, позволяют людям, не обладающим формальными знаниями о моделях обучения и настройке гиперпараметров, создавать мощные статистические прогнозы. Современный аналитик данных впервые в истории получает доступ к новым возможностям. Аналитики, как правило, находятся на переднем крае понимания бизнес-проблем и того, как применять данные для их решения. Хотя исторически аналитики могли быть только реакционными и отображать прошлые тенденции, теперь аналитики могут создавать функции, которые будут использоваться инструментами AutoML для получения информации о будущем.

Станет ли аналитик следующим Data Scientist? Я считаю, что оба названия будут существовать с большой двусмысленностью в ближайшие годы. Data Scientist может быть логическим прогрессом для аналитика, как только аналитик освоит использование бизнес-данных и научится работать с инструментами AutoML. Однако с помощью этого нового инструмента простые в освоении навыки, такие как разработка функций, могут быть изучены на рабочем месте, вместо того, чтобы требовать длительных, часто устаревших и дорогостоящих степеней.

Кто разрабатывает прогнозное моделирование следующего поколения?

Подавляющее большинство таких компаний, как Amazon и Meta, нанимают группы ученых-исследователей с докторской степенью для усовершенствования своих наиболее ценных прогностических моделей. Эти ученые-исследователи узко специализируются на программировании и статистике, разбираются в глубоко развивающихся областях математики и могут применять эти сложные концепции для улучшения доступных инструментов.

Важные открытия все еще делаются каждый день группами ученых-исследователей. GPT-3 или Generative Pre-trained Transformer version 3 — это сложная модель естественного языка, обученная на миллиардах образцов, способная писать целые статьи, вести человеческую беседу и отвечать на вопросы с удивительной степенью точности. Модели компьютерного зрения, подобные найденным в PyTorch, способны обнаруживать, сегментировать и классифицировать объекты на уровнях, сопоставимых с человеческими, за исключением случая чихуахуа и кексов.

Кто будет специалистом по данным будущего?

Я полагаю, что благодаря инвестициям Microsoft в ведущие в отрасли продукты, такие как Azure AutoML, Microsoft продемонстрировала понимание ценности сочетания сложных продуктов Auto ML с экспертами в предметной области и отказа от большей части программирования и статистики, необходимых вчерашнему специалисту по данным. .

Я верю, что знание предметной области будет определять будущее. Понимание взаимосвязи между входными и выходными данными способами, понятными для человека, и наличие навыков передачи этих знаний является наиболее важным вкладом в прогностическое моделирование. Я не удивлюсь, если на программах MBA начнут требовать курсы SQL или преподавать разработку функций. Акцент сместился с настройки модели на ввод модели, как на единственный способ повысить точность модели. Для получения более качественных входных данных модели бизнес-задача, к которой применяется модель, должна быть понятна специалистам. Эти специалисты, вероятно, будут называться учеными данных, но у них очень мало общего ДНК с ранними учеными данных. Я считаю, что специалисты по данным будущего будут тратить большую часть своего времени на разработку экспериментов, подтверждение гипотез, тесное внедрение в бизнес и написание SQL для создания функций, повышающих точность модели.

Глубокие статистики смогут сосредоточить свои специализированные навыки на повышении точности автоматизированных архитектур машинного обучения, снабдив этих футуристических специалистов по данным постоянно совершенствующимися инструментами для достижения еще более высокой точности.