Специалисты по обработке данных используют модели, чтобы делать некоторые выводы из данных. В случае обучения с учителем, поскольку для наших данных доступны как ввод, так и выводы (метки), мы можем попытаться найти функцию, которая сопоставляет ввод с меткой. Модель будет учиться на конкретном наборе данных, и результаты будут проверены на другом наборе. Мы будем называть обучающие данные значениями, которые мы используем для первой задачи, и данными тестирования для последней. После того, как модель будет протестирована, следующим шагом будет узнать о ее характеристиках, прежде чем принимать какое-либо решение. Матрица неточностей - это таблица, которая используется для описания успеха модели классификации.

Элементы матрицы неточностей

То, что мы решаем на основе классификатора, может быть либо «положительным», либо «отрицательным» (да / нет - иметь / не иметь). С другой стороны, исходя из того, с чем мы сравниваем - с нашими исходными данными - также есть два возможных результата: «Верно» или «Неверно» (Да / Нет - Есть / Нет). Следовательно, наша эффективность - это проверка фактических данных и прогнозов на соответствие «Верно / Неверно» и «Положительно / Негативно». Мы хотим измерить, насколько успешным был наш прогноз на основе данных тестирования.

Наши прогнозы сгруппированы в 4 категории, представленные возможными комбинациями.

  • Истинно положительные результаты (TP): мы предсказали «Да», и это было правильно («Верно»).
  • Истинно отрицательные (TN): Мы предсказали «Нет», и это тоже оказалось верным.
  • Ложноположительные результаты (FP): мы предсказали положительный результат, но он был предсказан неверно.
  • Ложноотрицательные результаты (ЛО): мы предсказали отрицательный результат, и он оказался «ложным».

Показатели, рассчитанные на основе матрицы неточностей

Четыре числа мало что говорят, поскольку мы ничего не знаем о проценте положительных результатов. Я пройдусь по 3 метрикам, рассчитанным из матрицы путаницы.

Точность. Этот процент помогает нам определить, насколько «точна» наша модель, то есть процент правильных прогнозов, сделанных моделью. Однако есть некоторые ограничения, связанные с использованием точности в качестве основного показателя для оценки модели. В нашем исследовании мы не учитываем ложноотрицательные результаты. Например: для компании по найму мы отклоняем кандидата с правильным профилем.

В большинстве случаев используются лучшие показатели: точность и отзывчивость (или чувствительность).

Точность показывает эффективность наших классификаторов при обнаружении положительных результатов. Это соотношение хорошо классифицированных положительных результатов к общему количеству прогнозируемых положительных результатов. Какой процент предсказанных положительных результатов верен?

Точность = TP / (TP + FP); знаменатель - это общее прогнозируемое количество положительных результатов.

Напоминание (также известный как TP Rate): насколько чувствительна модель при выборе положительных наблюдений. Он отвечает на вопрос: каков процент положительных результатов от всех реальных положительных результатов модели?

Отзыв (или чувствительность) = TP / (TP + FN)

Каждый контекст уникален, и на основе сценария специалист по данным решит, какая метрика подходит для его модели. Также ему придется подумать о том, какой тип ошибки допустим. Это поможет ему выбрать, где провести грань между ложными срабатываниями и ложными отрицаниями.

Если у вас есть какие-либо мысли и вы хотите обсудить, пожалуйста, позвольте подключиться.