День 58 из 100DaysofML

Подход к валидации. Это один из самых простых методов обучения, который очень часто используется. это просто технический термин, который используется для разделения нашего набора данных. Обычно весь наш набор данных разбивается на 2 основных набора: обучающий и проверочный. Когда мы импортировали наш набор данных в sklearn, мы можем напрямую разделить этот набор данных с помощью Sklearn, используя train_test_split(), который делит наш набор данных на части для обучения и тестирования/проверки. Взгляните на диаграмму, приведенную ниже:

Из приведенной выше диаграммы мы можем увидеть всю концепцию стратегии удержания, которую я объясню пошагово еще раз:

ШАГ 1. Первый и самый важный шаг заключается в разделении нашего набора данных на сегменты обучения и тестирования. Сегмент обучения, очевидно, используется для обучения модели или классификатора, тогда как тестирование используется для оценки созданной модели. Этот этап можно выполнить с помощью встроенных библиотек sklearn или путем разделения общего количества строк набора данных (используя .shape[][]), а затем разделить на номера строк (Но основным недостатком этого подхода является то, что вы не можете рандомизировать выбираемые строки).

ШАГ 2. В наших обучающих данных у нас есть два набора, которые представлены синим и желтым цветом на диаграмме, приведенной ниже. Обучение используется для обучения модели, и в то же время набор проверки используется для проверки точности или правильности обучения модели. В случае глубокого обучения точность вычисляется (в определенной степени) зависит от этого). Обучение модели проводится на основе признаков, которые имеют большее сходство или отношение к проблеме (классификация). Затем окончательная точность достигается путем сравнения результатов, полученных из модели с использованием тестового набора, с фактическими значениями. Матрица путаницы помогает нам понять это, и я буду объяснять больше о матрице путаницы в следующих блогах.

ШАГ 3. Последний шаг относится к этапу, на котором мы выбираем параметр для переобучения модели на основе точности, полученной на шаге 2, и добавления более релевантных функций или удаления функций, которые являются статическими или неактуальными. не имеют большого значения для модели на этапе обучения. Окончательную тестовую метрику также можно использовать для сравнения точности с другими моделями, обученными на тех же данных.

Одна из исследовательских работ, в которой проводится довольно хороший анализ подхода с использованием подхода Holdout, упоминается ниже:

https://www.researchgate.net/publication/332350661_On_Holdout_and_Cross_Validation_A_Comparison_between_Neural_Network_and_Support_Vector_Machine

В приведенной выше статье сообщается о сравнительном исследовании двух алгоритмов машинного обучения с использованием подхода удержания и перекрестной проверки к классификации номинальных и непрерывных атрибутов. В качестве алгоритмов использовались SVM и ANN. Результаты этого исследования показывают, что SVM обеспечивает лучшую точность, чем ANN, для номинальных атрибутов, в то время как ANN превосходит точность SVM для непрерывных атрибутов как для эксперимента с задержкой, так и для перекрестной проверки. Эксперимент проводился на одном наборе данных, который представляет собой набор данных о доходах переписи из репозитория UCI.

Я бы порекомендовал потратить пару минут и посмотреть приведенное ниже видео, чтобы закрепить концепции.

Это все на сегодня. Спасибо за просмотр. Продолжайте учиться.
Удачи.

День 58 из 100DaysofML

Похожие вопросы