Почему KNN имеет низкую точность, но высокую точность?

Я классифицировал набор данных 20NG с помощью k-nn с 200 экземплярами в каждой категории с разделением тестов поездов 80-20, где я нашел следующие результаты.

введите здесь описание изображения

Здесь точность довольно низкая, но насколько высока точность, если точность настолько низкая? разве это не формулы точности TP/(TP + FP)? Если да, то высокоточный классификатор должен генерировать высокое истинное положительное значение, что приведет к высокой точности, но как K-nn генерирует высокую точность со слишком меньшей истинной положительной скоростью?


person Kashif Khan    schedule 04.02.2014    source источник
comment
Не могли бы вы выбрать более информативное название для вопроса? Это поможет другим найти его.   -  person Sentry    schedule 05.02.2014
comment
@Sentry, спасибо за предложение, я согласен, что иногда я выбираю заголовок, который действительно неоднозначен, однако я отредактировал его, чтобы сделать его более актуальным для проблемы.   -  person Kashif Khan    schedule 06.02.2014
comment
Так намного лучше, спасибо. Теперь другим людям будет проще, и вы сможете получить больше голосов и ответов :)   -  person Sentry    schedule 06.02.2014


Ответы (1)


Отзыв эквивалентен истинному положительному показателю. Задачи классификации текста (особенно поиск информации, но также и категоризация текста) показывают компромисс между полнотой и точностью. Когда точность очень высока, отзыв имеет тенденцию быть низким, и наоборот. Это связано с тем, что вы можете настроить классификатор, чтобы классифицировать больше или меньше экземпляров как положительные. Чем меньше случаев вы классифицируете как положительные, тем выше точность и ниже отзыв.

Чтобы убедиться, что мера эффективности коррелирует с точностью, вам следует сосредоточиться на F-мере, которая усредняет полноту и точность (F-мера = 2*r*p / (r+p)).

Неленивые классификаторы следуют процессу обучения, в котором они пытаются оптимизировать точность или ошибку. K-NN, будучи ленивым, не имеет тренировочного процесса и, как следствие, не пытается оптимизировать какие-либо меры эффективности. Вы можете играть с различными значениями K, и интуитивно понятно, что чем больше K, тем выше отзыв и ниже точность, и наоборот.

person Jose Maria Gomez Hidalgo    schedule 04.02.2014