Основы науки о данных

Руководство для начинающих по фундаментальным принципам науки о данных.

Эволюция данных

Данные стали неотъемлемой частью нашей жизни. Он больше не ограничивается только цифрами и текстом, но также включает изображения и видео. Два десятилетия назад данные были небольшими и структурированными, представленными в килобайтах, а не даже в мегабайтах. Популярное в то время запоминающее устройство, гибкий диск, имело максимальную емкость всего 512 КБ. Данные были структурированы в табличном формате.

Перенесемся в сегодняшний день: каждую минуту генерируются зеттабайты данных. Эти данные неструктурированы и не имеют типичной структуры строк и столбцов. Он включает в себя все данные изображений и видео, что усложняет анализ. Однако этот огромный объем данных дает предприятиям ценную информацию, которая раньше была невозможна.

Здесь на помощь приходит наука о данных. Наука о данных используется для извлечения знаний и идей из данных. Это помогает предприятиям увеличивать доходы, оптимизировать процессы и принимать обоснованные решения. Во время пандемии наука о данных сыграла решающую роль в борьбе с распространением болезни. С помощью науки о данных мы смогли проанализировать распространение вируса и принять необходимые меры для его сдерживания.

Реальные приложения науки о данных

— Обнаружение мошеннических транзакций и фильтрация спама.

Одним из способов применения науки о данных является интеллектуальный анализ данных, который включает извлечение полезной информации из больших наборов данных. Например, если клиент получает звонок из своего банка по поводу транзакции на сумму 15 000 долларов США для покупки бриллиантового ожерелья в Австралии, несмотря на то, что он никогда не был в Австралии и никогда не совершал транзакцию на сумму более 5 000 долларов США, алгоритмы интеллектуального анализа данных могут быстро пометить транзакцию как мошенническую и предупредить клиента о подтверждении транзакции.

Еще один пример науки о данных в действии — фильтрация электронной почты. Gmail, например, использует алгоритмы текстовой аналитики и обработки данных, включая интеллектуальный анализ текста, чтобы определить, является ли входящее электронное письмо подлинным, спамом или рекламным сообщением. Используя положительные и отрицательные словари, алгоритм может идентифицировать определенные слова и фразы, которые обычно используются в спам-сообщениях. Например, строки темы спам-сообщений часто пишутся заглавными буквами или содержат такие фразы, как «Поздравляем! Вы выиграли джекпот!», «Скорая помощь! Пожалуйста, пожертвуйте деньги» или «Важное обновление, пожалуйста, сделайте это». Если количество спам-слов в электронном письме превышает определенный порог, электронное письмо будет отфильтровано в папку со спамом.

Жизненный цикл науки о данных

Получение данных

Как обсуждалось ранее, данные часто собираются из различных источников и могут быть объемными и неструктурированными по своему характеру. Эти данные обычно хранятся в централизованном хранилище, известном как хранилище данных. Однако из-за различных источников данных проблема заключается в их интеграции в единую структуру. Например, данные могут быть собраны в различных форматах, таких как mp3, Png, pdf и других. Таким образом, важно преобразовать и консолидировать данные в общий формат для анализа.

Затем определите соответствующие целевые данные для конкретной бизнес-задачи или анализа. Не все точки данных одинаково важны, и сосредоточение внимания на важной информации является ключом к получению осмысленных выводов. Таким образом, правильная интеграция данных и идентификация целевых данных являются важными шагами в сборе данных.

Предварительная обработка данных

Это решающий этап в жизненном цикле анализа данных, занимающий более 50% всего цикла. Процесс включает два основных этапа:

Манипулирование данными: это включает фильтрацию данных из тысяч строк с использованием таких языков программирования, как Python, где одна строка кода может эффективно фильтровать данные.
Визуализация данных: в нем используются такие методы, как гистограммы, гистограммы и т. д. Он дает представление визуально, что упрощает его понимание и интерпретацию. Визуальное представление жизненно важно для анализа данных, поскольку изображение говорит в тысячу раз больше, чем текст.

Машинное обучение

После успешного преобразования необработанных данных в аккуратный формат становится возможным приступить к реализации алгоритма машинного обучения, который служит интеллектуальным инструментом, помогающим извлекать значимую информацию из данных. Наиболее часто используемые типы алгоритмов ML включают:

Классификация: отнесение точек данных к определенным категориям
Регрессия: использует шаблоны данных для прогнозирования.
Кластеризация: группировка похожих точек данных в кластеры.

Оценка шаблона

В контексте использования алгоритмов машинного обучения оценка закономерностей является важным шагом в определении точности и полезности полученных результатов. Например, если точность модели составляет всего 35 %, это свидетельствует о чрезвычайно примитивной модели, которая требует дальнейшего уточнения для получения практических результатов, потенциально способных решить основную проблему.

Представление знаний

При представлении данных и шаблонов заинтересованным сторонам или клиентам важно использовать простые и эстетичные графики для представления информации. Это связано с тем, что не все заинтересованные стороны или клиенты могут быть знакомы с техническим жаргоном. Использование простых и эстетически привлекательных графиков может помочь более эффективно передавать информацию и гарантировать, что каждый сможет понять представленные идеи.

Задачи интеллектуального анализа данных

Обнаружение аномалий

Процесс выявления необычных закономерностей или выбросов в данных, который может быть полезен для понимания различий в данных. Обнаружение аномалий находится в стадии предварительной обработки данных жизненного цикла науки о данных, что может помочь обнаружить ошибки, такие как отсутствующие данные или неверные данные.

Например, когда вы перечислили данные в табличном формате, если имена столбцов неверны или другие данные перечислены в другом столбце, например, данные столбца возраста перечислены в столбце имени. В этой ситуации вы можете воспользоваться помощью обнаружения аномалий.

если набор данных имеет 10 точек данных, а 8 точек данных имеют значения от 4 до 6, но значения 2 экстремальных точек данных равны 20, наличие этих 2 экстремальных значений может существенно повлиять на общее среднее значение данных. установлен, что приводит к его перекосу в сторону более высокого значения. В этой ситуации можно использовать обнаружение аномалий, чтобы идентифицировать эти экстремальные значения как выбросы и либо исправить их, либо удалить из набора данных, чтобы они не искажали результаты.

Интеллектуальный анализ правил ассоциации

Техника, которая включает в себя обнаружение интересных взаимосвязей или ассоциаций между элементами в больших наборах данных. Цель состоит в том, чтобы определить частые закономерности, корреляции или совпадения, которые могут дать представление о поведении клиентов, рыночных тенденциях и других важных факторах.

В 1990-х годах компания Catalina Marketing, занимающаяся анализом розничных данных, анализировала модели покупок в продуктовых магазинах. Они провели тематическое исследование синдром пивных подгузников, в ходе которого хотели выяснить взаимосвязь между продажами пива и продажами подгузников. Когда одинокий папа приходит в магазин, чтобы купить подгузники, существует очень большая вероятность того, что он также купит банку пива вместе с подгузником, поскольку корреляция была просто из-за того факта, что оба предмета часто покупались по выходным. Теория заключалась в том, что отцы покупали пиво, выбирая подгузники для своих детей. Однако более поздние исследования показали, что корреляция, вероятно, была связана с тем, что и пиво, и подгузники часто покупались по выходным.

Интеллектуальный анализ правил ассоциации можно использовать для выявления взаимосвязей между товарами в магазине, а также для дополнительных или перекрестных продаж товаров. Например, если покупатель покупает блокнот, магазин может порекомендовать ручки, маркеры или другие сопутствующие товары, чтобы увеличить общую продажу. Этот метод обычно используется в розничной торговле и электронной коммерции и часто основан на анализе покупательских моделей и поведения клиентов.

Введение в машинное обучение

Цель машинного обучения — позволить компьютерам учиться и делать прогнозы или принимать решения на основе данных, подобно тому, как люди учатся на собственном опыте. Для достижения этой цели обычно требуется большой набор данных для обучения модели машинного обучения. Набор данных разделен на обучающий набор и тестовый набор.

Учебный набор используется для обучения модели путем подачи ей входных данных и соответствующих правильных выходных данных. Затем модель учится распознавать закономерности в данных и корректировать свои параметры, чтобы свести к минимуму ошибки, что называется подгонкой модели.

После того, как модель обучена, она оценивается на тестовом наборе для измерения ее производительности и способности к обобщению. Тестовый набор — это отдельный набор данных, который модель никогда раньше не видела, и он используется для имитации того, как модель будет работать с новыми, невидимыми данными.

Категории машинного обучения

Обучение под наблюдением: действительно есть две переменные. Входная переменная (также известная как предиктор или независимая переменная) и выходная переменная (также известная как отклик или зависимая переменная). Входная переменная используется для прогнозирования или принятия решений относительно выходной переменной.

Типы контролируемого обучения:

Регрессия: направлена на оценку взаимосвязи между одной или несколькими независимыми переменными и непрерывной зависимой переменной. Линейная регрессия — это особый тип регрессионного анализа, в котором зависимая переменная является непрерывной числовой, например, доход или температура. Основная цель линейной регрессии — подобрать прямую линию к точкам данных.
Классификация: процесс прогнозирования класса новой переменной. Например, в медицинской диагностике мы можем классифицировать пациента как больного раком или нет в зависимости от того, курит он или нет. В классификации зависимая переменная носит категориальный характер и может быть бинарной или многослойной. В случае бинарной классификации зависимая переменная имеет только два возможных исхода, например, «да» или «нет», или «0» или «1», как в примере с диагностикой рака. Многоуровневая классификация включает прогнозирование между более чем двумя классами (такими как «низкий», «средний» и «высокий»).

2. Неконтролируемое обучение (кластеризация): цель состоит в том, чтобы идентифицировать закономерности или взаимосвязи в данных без каких-либо предварительных знаний о переменной результата. Входные данные не имеют определенной метки, и алгоритм самостоятельно находит структуру или скрытые закономерности. Одним из способов оценки качества кластеризации является измерение сходства внутри кластера, которое относится к степени сходства между точками данных в одном кластере на основе общих признаков. С другой стороны, межкластерные различия относятся к степени различия между точками данных в разных кластерах на основе разных функций.

Языки для науки о данных

Python и R — популярные языки программирования, используемые в науке о данных. Python известен своей простотой, универсальностью и масштабируемостью. У него большое и активное сообщество, что позволяет легко находить поддержку и ресурсы.

R, с другой стороны, был специально разработан для статистических вычислений, что делает его популярным выбором для анализа и визуализации данных. Он также имеет большое и активное сообщество и обширную коллекцию библиотек и инструментов для обработки данных, моделирования и визуализации.

Jupyter Notebook — это интерактивная среда для написания и запуска кода на Python и других языках, а Anaconda — это дистрибутив Python и R, который включает в себя многие из самых популярных библиотек и инструментов для обработки данных.

И Python, и R имеют свои сильные и слабые стороны, поэтому в конечном итоге все зависит от ваших конкретных потребностей и предпочтений. Некоторые люди предпочитают Python за его универсальный характер и простоту использования, в то время как другие предпочитают R за его статистические возможности и инструменты визуализации.

Заключение

Данные со временем эволюционировали от небольших и структурированных данных до огромных объемов неструктурированных данных. Наука о данных играет решающую роль в извлечении ценных идей и знаний из этого огромного объема данных. Реальные приложения науки о данных включают обнаружение мошенничества и фильтрацию электронной почты.

Жизненный цикл науки о данных включает в себя сбор данных, предварительную обработку данных, машинное обучение, оценку шаблонов и представление знаний. Обнаружение аномалий — важная задача на этапе предварительной обработки данных, которая помогает выявить необычные закономерности или выбросы в данных. Простые и эстетичные графики полезны для представления данных и шаблонов заинтересованным сторонам или клиентам, поскольку не все могут быть знакомы с техническим жаргоном.

Кроме того, алгоритмы машинного обучения играют важную роль в науке о данных, позволяя создавать прогностические модели и автоматизировать определенные задачи. Существуют различные инструменты и языки программирования, которые используют специалисты по данным, включая Python, R, SQL, а также различные библиотеки и фреймворки для обработки данных.