Регрессия против классификации в машинном обучении

Какая разница?

Сравнение регрессии и классификации в машинном обучении иногда может сбить с толку даже самых опытных специалистов по данным. В конечном итоге это может затруднить им внедрение правильных методологий для решения задач прогнозирования. И регрессия, и классификация являются типами контролируемых алгоритмов машинного обучения, где модель обучается в соответствии с существующей моделью вместе с правильно помеченными данными. Но есть также много различий между алгоритмами регрессии и классификации, которые вы должны знать, чтобы правильно их реализовать и отточить свои навыки машинного обучения. В этом блоге мы поймем разницу между алгоритмами регрессии и классификации.

Регрессия против классификации в машинном обучении: чем они отличаются

Некоторым алгоритмам могут потребоваться подходы как к классификации, так и к регрессии, поэтому глубокое знание обоих подходов имеет решающее значение в областях ИИ и науки о данных. Прежде чем мы углубимся в понимание различий между алгоритмами регрессии и классификации. Давайте сначала разберемся с каждым алгоритмом.

Что такое регрессионное машинное обучение?

Алгоритмы регрессии предсказывают непрерывное значение на основе входных переменных. Основная цель задач регрессии — оценить функцию отображения на основе входных и выходных переменных. Если ваша целевая переменная представляет собой количество, такое как доход, баллы, рост или вес, или вероятность бинарной категории (например, вероятность дождя в определенных регионах), вам следует использовать модель регрессии. Однако существуют различные типы регрессий, используемые специалистами по данным и инженерами машинного обучения на основе разных сценариев. Различные типы алгоритмов регрессии включают в себя:

1. Простая линейная регрессия

С помощью простой линейной регрессии вы можете оценить взаимосвязь между одной независимой переменной и другой зависимой переменной с помощью прямой линии, учитывая, что обе переменные являются количественными.

2. Множественная линейная регрессия

Расширение простой линейной регрессии, множественная регрессия может прогнозировать значения зависимой переменной на основе значений двух или более независимых переменных.

3. Полиномиальная регрессия

Основная цель полиномиальной регрессии – смоделировать или найти нелинейную связь между зависимыми и независимыми переменными.

Что такое классификационное машинное обучение?

Классификация — это прогностическая модель, которая аппроксимирует функцию отображения входных переменных для определения дискретных выходных переменных, которые могут быть метками или категориями. Функция отображения алгоритмов классификации отвечает за прогнозирование метки или категории заданных входных переменных. Алгоритм классификации может иметь как дискретные, так и действительные переменные, но он требует, чтобы примеры были отнесены к одному из двух или более классов.

Различные типы алгоритмов классификации включают в себя:

1. Классификация дерева решений

В этом алгоритме модель классификации создается путем построения дерева решений, где каждый узел дерева является тестовым примером для атрибута, а каждая ветвь, исходящая из узла, является возможным значением для этого атрибута.

2. Классификация случайных лесов

Этот древовидный алгоритм включает в себя набор деревьев решений, которые выбираются случайным образом из подмножества основного обучающего набора. Алгоритм классификации случайного леса объединяет выходные данные всех различных деревьев решений, чтобы определить окончательный прогноз выходных данных, который является более точным, чем любое из отдельных деревьев.

3. K-ближайший сосед

Алгоритм K-ближайших соседей предполагает, что подобные вещи существуют в непосредственной близости друг от друга. Он использует сходство признаков для прогнозирования значений новых точек данных. Алгоритм помогает группировать похожие точки данных вместе в соответствии с их близостью. Основная цель алгоритма — определить, насколько вероятно, что точка данных будет частью конкретной группы.

Регрессия против классификации в машинном обучении: понимание разницы

Наиболее существенное различие между регрессией и классификацией заключается в том, что, хотя регрессия помогает предсказать непрерывную величину, классификация предсказывает дискретные метки классов. Есть также некоторые совпадения между двумя типами алгоритмов машинного обучения.

Алгоритм регрессии может предсказать дискретное значение в виде целочисленной величины.
Алгоритм классификации может предсказать непрерывное значение, если оно представлено в виде вероятности метки класса.

Давайте рассмотрим набор данных, который содержит информацию о студентах определенного университета. В этом случае можно использовать алгоритм регрессии для прогнозирования роста любого учащегося на основе его веса, пола, диеты или специальности. В этом случае мы используем регрессию, потому что высота является непрерывной величиной. Существует бесконечное множество возможных значений роста человека.

Наоборот, классификацию можно использовать для анализа того, является ли электронное письмо спамом или нет. Алгоритм проверяет ключевые слова в электронном письме и адрес отправителя, чтобы выяснить вероятность того, что электронное письмо является спамом. Точно так же, хотя модель регрессии может использоваться для прогнозирования температуры на следующий день, мы можем использовать алгоритм классификации, чтобы определить, будет ли это холодно или жарко в соответствии с заданными значениями температуры.