Вы очистили свои данные и провели предварительный анализ данных. Что теперь? Как аналитики данных, у нас есть много инструментов в нашем наборе инструментов, но точно так же, как отверткой можно забить гвоздь, это не лучший инструмент для работы. Наши инструменты - это модели или, если вы предпочитаете математический термин, алгоритмы. Они позволяют нам анализировать собранные данные и делать прогнозы.

В зависимости от типа данных существует три основных типа моделей. Для непрерывных числовых данных у нас есть множество методов регрессии. Это наши отвертки и гаечные ключи. Довольно простые для понимания и использования, они объединяют данные, чтобы уместить их на какой-то линии или многомерной плоскости. Для категориальных или дискретных данных у нас есть модели кластеризации и классификации. Это наши пилы и ножи. Они разделяют данные на разные части: похожие и непохожие. При таком большом количестве вариантов может быть трудно понять, какой инструмент использовать в каких обстоятельствах. Итак, давайте рассмотрим каждый по очереди.

Модели численной регрессии стремятся найти лучшую линию, которая соответствует непрерывным числовым данным. Они могут быть линейными, в которых зависимая переменная (обычно называемая y) соответствует одной или нескольким независимым переменным с использованием некоторого типа полиномиальной функции. Нелинейная регрессия используется для подгонки одной или нескольких независимых переменных к логарифмической, экспоненциальной или сигмоидной функции.

Линейные регрессии включают:

1) Одинарная линейная регрессия: одна независимая переменная соответствует базовой линии:

  • y = mx + b, где m - наклон прямой, а b - значение y при x = 0

2) Множественная линейная регрессия: 2 или более независимых переменных помещаются в строку первого порядка:

  • y = mx + nz + c, где m и n - наклон линии в плоскостях x и z, а c - значение y при x = z = 0.

3) Полиномиальная регрессия: как одиночная, так и множественная линейная регрессия на самом деле являются частными случаями полиномиальной регрессии, когда одна или несколько независимых переменных соответствуют полиному порядка больше 1:

  • y = m0 + m1x + m2x2 + m3 x3 + …

Нелинейные регрессии включают:

1) Логарифмическая регрессия

  • y = alog (x) или y = bln (x)

2) Экспоненциальная регрессия

  • y = e^x + b

3) Сигмоидальная регрессия: используйте функции, которые создают S-образную кривую, например синус и косинус.

  • y = asin (x) + b или y = dcos (x) + e

В каждом из этих случаев линия (или плоскость) соответствует непрерывным данным. Обратите внимание, что также можно разбить ваши данные на разделы и разместить разные строки в каждом разделе. Существуют различные методы, которые можно использовать для определения наиболее подходящей линии, но это уже другая статья.

Что делать, если у вас нет непрерывных данных? Что, если у вас есть только два или три дискретных значения: да / нет, например, или малое / среднее / большое? Или, возможно, двадцать вариантов, но каждый, очевидно, не зависит от другого. С точки зрения бизнеса, вы можете спросить, какие клиенты, скорее всего, не выплатят ссуду, или определить демографические данные клиентов, покупающих тот или иной продукт. В этих случаях вам будет сложно подогнать линейную или нелинейную регрессию к вашим данным. Вместо этого у нас есть другие типы инструментов, которые сортируют данные, а не подгоняют под них: модели классификации и модели кластеризации. Основное отличие состоит в том, что с моделями классификации у вас уже есть предопределенные классы, по которым вы сортируете данные. Для моделей кластеризации данные сортируются по схожим категориям, без предварительного знания того, какие именно категории. (Обратите внимание, что эти модели также можно использовать для непрерывных данных, но вам нужно будет разделить непрерывные данные на дискретные единицы.) Хотя регрессии соответствуют линии данных, классификация и кластеризация рисуют линии или плоскости между данные, разделив их на категории вроде против непохожего.

Модели классификации включают:

  • Деревья решений. Здесь данные сначала разбиваются на две категории с логическими результатами: Истина или Ложь. На каждом этапе рассматривается новое логическое значение, пока все подобные данные не будут разделены на отдельные категории и больше не могут быть разделены. Этот метод может стать громоздким, если вы выйдете за пределы нескольких веток.
  • Случайный лес: аналогично деревьям решений, за исключением того, что вы начинаете с нескольких разных деревьев.
  • K-ближайший сосед (KNN): в этом методе классификации вы начинаете с K кластеров, и каждая точка данных назначается центру кластера, к которому она ближайшая. Это похоже на кластеризацию K-средних (см. Ниже), но аналитик выбирает количество и расположение кластеров.
  • Логистическая регрессия. Название звучит так, как будто это должно быть похоже на логарифмическую регрессию, но на самом деле это совсем другое. По сути, это даже не регрессия, а алгоритм классификации. Он используется для определения вероятности успеха или неудачи или вероятности одного исхода над другим.

Модели кластеризации включают:

  • Иерархическая кластеризация: обычно используется с небольшими наборами данных, так как слишком большой объем данных быстро становится громоздким. Начинается с одного кластера всего набора данных и с каждой итерацией разбивается на несколько кластеров, пока в одном из них не закончатся данные или всем данным не будет назначена ветвь, которая не изменяется. Подобно дереву решений, за исключением того, что вы не знаете категории заранее. Обычно отображается на дендритной диаграмме.
  • Агломеративная кластеризация: особый случай иерархической кластеризации, но начинается снизу вверх. Каждая точка данных начинается в своем собственном кластере, затем на каждой итерации данные объединяются в похожие кластеры. Как и иерархическая кластеризация, это лучше всего работает с небольшими наборами данных из-за ограничений по пространству и времени.
  • K-средство: метод разделения наблюдений на k кластеров, при котором данные внутри каждого кластера более тесно связаны друг с другом, чем данные за пределами кластеров. Это выполняется итеративно, так что в каждом раунде местоположение каждого центра кластера изменяется до тех пор, пока все точки не будут присвоены кластеру и кластеры больше не изменятся. Кластеризацию K-средних можно использовать как с большими, так и с маленькими наборами данных. Лучше всего он работает с наборами данных, которые могут формироваться в примерно сферические наборы.

Модели классификации и кластеризации могут использоваться с числовыми или нечисловыми данными, которые были закодированы в горячем режиме. То есть текстовые данные имеют ограниченное количество дискретных значений и могут быть преобразованы в отдельные числа, которые ничего не значат. Например, у вас есть три размера одежды: маленький, средний и большой. Вы можете закодировать их как 1 для малого, 2 для среднего и 3 для большого. Однако это всего лишь классификации. В этом случае 1 + 2! = 3.

Как и описанные выше регрессионные модели, эти модели можно использовать как для описания текущего набора данных, так и для прогнозирования новых данных. Используя машинное обучение, вы можете программировать эти модели, обучая их на наборах данных, которые вам уже известны, чтобы предсказывать данные, которых вы не знаете. Механика этого выходит за рамки этой статьи, но есть много отличных ресурсов по машинному обучению.

Вывод:

В нашем наборе инструментов для анализа данных есть множество инструментов для моделирования данных. Модели регрессии - это отвертки и гаечные ключи из нашего набора, объединяющие непрерывные данные и подгоняющие их к какой-то линии или плоскости в одном или нескольких измерениях. Модели классификации и кластеризации - это наши пилы и ножи, разрезающие данные и разделяющие их на группы или кластеры, похожие на разные. Это наши самые базовые модели в нашем наборе инструментов, и важно понимать, когда мы можем использовать тот или иной тип модели и какая модель лучше всего подходит для наших данных.

Для дальнейшего изучения:

Если вы хорошо разбираетесь в науке о данных, попробуйте Confident Data Skills от Кирилла Еременко, аналитика данных из Австралии, который возглавляет SuperDataScience. Вы также можете проверить его онлайн-курсы на Udemy. Он с большим энтузиазмом относится к науке о данных, его курсы хорошо составлены, и им легко следовать.

Для действительно глубокого взгляда на математику, лежащую в основе этих моделей и других моделей машинного обучения, посмотрите Машинное обучение: краткое введение Стивена Нокса. Стив - глава отдела анализа данных в АНБ и мой бывший коллега. Его книга получила награду за лучшую прозу в учебнике, она проста и понятна, с глубиной математической строгости, которую большинство аналитиков данных склонно игнорировать.

Если вам нужен отличный онлайн-курс, попробуйте IBM's data science track на Coursera, серию из девяти курсов с использованием Python для науки о данных, которые охватывают все, от основ анализа данных до моделей машинного обучения. Это особенно хорошо сделано, с множеством лабораторных работ, заданий и проектов, которые нужно выполнить, включая заключительный проект, завершающий работу, для получения сертификата по науке о данных.

И, конечно же, есть раздел науки о данных на Medium, который предлагает широкий спектр тем по науке о данных, от новичка до продвинутого, и стал для меня огромным количеством информации, меняющей карьеру. .

Обо мне: Я всю жизнь пользуюсь данными, сначала как инженер-эколог, а затем (что удивительно) в сфере служения. Покинув этот мир, я заново изучил старые методы анализа данных и множество новых инструментов, чтобы стать внештатным аналитиком данных. Вы можете найти меня в LinkedIn.