ROC и AUC

Кривая ROC или рабочая характеристика приемника используется для оценки моделей классификации. Это не что иное, как график, отображающий эффективность модели классификации. Это очень популярный метод измерения точности классификационной модели.

Пороговые значения для прогнозных моделей

Возьмем, к примеру, прогнозную модель. Скажем, мы строим модель логистической регрессии, чтобы определить, является ли рак груди доброкачественным или злокачественным.

Модель, которая возвращает вероятность 0,8 для конкретного пациента, означает, что у пациента больше шансов иметь злокачественный рак груди.

С другой стороны, другой пациент с оценкой прогноза 0,2 по той же модели логистической регрессии, скорее всего, не болен злокачественным раком груди.

Тогда как насчет пациента с оценкой прогноза 0,6? В этом сценарии мы должны определить порог классификации, чтобы отобразить значения логистической регрессии в двоичные категории.

По умолчанию модель логистической регрессии предполагает, что порог классификации равен 0,5, но пороговые значения полностью зависят от проблемы. Чтобы добиться желаемого результата, мы можем настроить порог.

Если нам нужно обнаруживать большие металлы, нам нужно увеличить порог, чтобы чувствительность снизилась и металлоискатель не сработал вблизи мелких металлов.

Но если нам нужно обнаруживать мелкие металлы, нам нужно снизить порог, чтобы повышалась чувствительность и звуковой сигнал мог срабатывать и рядом с мелкими металлами.

Но теперь вопрос в том, как настроить порог?

Что такое кривая ROC?

График рабочих характеристик приемника или ROC используется для визуализации работы двоичного классификатора. Это дает нам компромисс между истинно положительной скоростью (TPR) и ложной положительной скоростью (FPR) при разных порогах классификации.

Истинно положительный рейтинг:

Истинно положительный процент - это доля наблюдений, которые, согласно правильному прогнозу, являются положительными.

Уровень ложноположительных результатов:

Частота ложноположительных результатов - это доля наблюдений, которые ошибочно предсказаны как положительные.

Для разных пороговых значений мы получим разные TPR и FPR. Итак, чтобы визуализировать, какой порог лучше всего подходит для классификатора, мы строим кривую ROC. На следующем рисунке показано, как выглядит типичная кривая ROC.

Как трактовать ОКР?

Кривая ROC для случайного классификатора со случайным уровнем производительности (как показано ниже) всегда показывает прямую линию. Эта кривая ROC случайного классификатора считается базовой линией для измерения эффективности классификатора. Две области, разделенные этой кривой ROC, указывают на оценку уровня производительности - хороший или плохой.

Кривые ROC, которые попадают под область в верхнем левом углу, указывают на хорошие уровни производительности, тогда как кривые ROC, попадающие в другую область в правом нижнем углу, указывают на низкие уровни производительности. Кривая ROC идеального классификатора представляет собой комбинацию двух прямых линий, каждая из которых движется от базовой линии к верхнему левому углу.

Площадь под кривой ROC

Площадь под кривой или кривая AUC ROC - это не что иное, как площадь под кривой, вычисленная в пространстве ROC. Один из простых способов рассчитать показатель AUC - использовать правило трапеций, которое складывает все трапеции под кривой.

Хотя теоретический диапазон оценки кривой AUC ROC составляет от 0 до 1, фактические оценки значимых классификаторов превышают 0,5, что является оценкой кривой AUC ROC случайного классификатора.

Использованная литература:

Https://intellipaat.com/blog/roc-curve-in-machine-learning/