Обычное руководство по обучению с учителем с помощью scikit-learn - Логистическая регрессия - Обобщенные линейные модели (12)

Это двенадцатая часть из 92 частей традиционного руководства по контролируемому обучению с помощью scikit-learn, написанного с целью научиться реализовывать алгоритмы для продуктивного использования и быть в состоянии объяснить алгоритмическую логику, лежащую в основе этого. Ссылки на все разделы вы найдете в первой статье.

Логистическая регрессия

Логистическая регрессия - это подходящий регрессионный анализ, который следует проводить, когда зависимая переменная является дихотомической (бинарной). Как и все регрессионные анализы, логистическая регрессия - это прогнозный анализ. Логистическая регрессия используется для описания данных и объяснения взаимосвязи между одной зависимой двоичной переменной и одной или несколькими номинальными, порядковыми, интервальными или пропорциональными независимыми переменными.

Тип вопросов, которые можно изучить с помощью бинарной логистической регрессии.

Как изменяется вероятность заболеть раком легких (да или нет) с каждым дополнительным фунтом веса человека и с каждой выкуриваемой за день пачкой сигарет?

Влияют ли масса тела, калорийность, потребление жиров и возраст на вероятность сердечного приступа (да или нет)?

Логистическая регрессия предсказывает вероятность результата, который может иметь только два значения (т. Е. Дихотомия). Прогноз основан на использовании одного или нескольких предикторов (числовых и категориальных). Линейная регрессия не подходит для прогнозирования значения двоичной переменной по двум причинам:

  • Линейная регрессия будет прогнозировать значения за пределами допустимого диапазона (например, прогнозирование вероятностей
    вне диапазона от 0 до 1)
  • Поскольку дихотомические эксперименты могут иметь только одно из двух возможных значений для каждого эксперимента, остатки не будут нормально распределяться вокруг предсказанной линии.

С другой стороны, логистическая регрессия создает логистическую кривую, которая ограничена значениями от 0 до 1. Логистическая регрессия аналогична линейной регрессии, но кривая строится с использованием натурального логарифма «шансов» целевой переменной. , а не вероятность. Более того, предикторы не обязательно должны быть нормально распределенными или иметь одинаковую дисперсию в каждой группе.

В логистической регрессии константа (b0) перемещает кривую влево и вправо, а наклон (b1) определяет крутизну кривой. Путем простого преобразования уравнение логистической регрессии можно записать в виде отношения шансов.

Наконец, взяв натуральный логарифм обеих сторон, мы можем записать уравнение в терминах логарифмических коэффициентов (логит), которые являются линейной функцией предикторов. Коэффициент (b1) - это величина, на которую логит (логарифм-шансы) изменяется при изменении на одну единицу в x.

Как упоминалось ранее, логистическая регрессия может обрабатывать любое количество числовых и / или категориальных переменных.

В качестве проблемы оптимизации логистическая регрессия бинарного класса L2 со штрафными санкциями минимизирует следующую функцию стоимости:

Точно так же регуляризованная логистическая регрессия L1 решает следующую задачу оптимизации

В классе Logistic Regression реализованы решатели «liblinear», «newton-cg», «lbfgs», «sag» и «saga». Вкратце, в следующей таблице приведены характеристики решателей:

Решающая программа «саги» часто оказывается лучшим выбором. Решатель «liblinear» используется по умолчанию по историческим причинам.

примечание: источник информации выше.

Давайте сразу перейдем к кодированию, чтобы понять и применить концепции, которые мы обсуждали для нашего набора данных новостей.

Кредиты

Все кредиты относятся к документации Scikit-learn, а все ссылки соответствуют официальному руководству пользователя.

Также спасибо моему другу, который считает, что «успех для меня - это если я оказал достаточно влияния, чтобы мир стал лучше», что побуждает меня начать с нуля и в какой-то момент изменить ситуацию.

об авторе

Я Венали Сонон, специалист по обработке данных по профессии, а также студент-менеджер, стремящийся продвинуться по карьерной лестнице в финансовой индустрии.