Руководство для новичков в машинном обучении — часть 5

Мы рассмотрели классификатор k-NN для классификации точки в один из четырех квадрантов. В следующих нескольких постах мы рассмотрим новый тип классификатора, называемый классификатором дерева решений.

Что такое дерево решений?

Дерево решений представляет собой древовидную структуру, похожую на блок-схему. Если вы проследуете по дереву от корня к листу, вы найдете метку класса. Все нелистовые узлы представляют некоторую форму проверки данных, которые мы хотим классифицировать, и каждый листовой узел представляет собой метку класса. Для нашего примера спам-фильтра дерево может выглядеть примерно так:

Каждый нелистовой узел, выполняющий проверку атрибута, разделяет набор данных. Такое разделение называется «расщеплением». Существует ряд показателей выбора атрибутов, которые можно использовать для выбора наилучшего атрибута для разделения данных. Разные алгоритмы используют разные меры и создают либо бинарное, либо небинарное дерево.

Существует ряд алгоритмов, которые можно использовать для создания деревьев решений, таких как ID3, C4.5, CART и т. д. ID3 создает недвоичные деревья, тогда как CART создает двоичные деревья. ID3, C4.5 и CART следуют жадному подходу к созданию деревьев, в которых деревья создаются с помощью нисходящего рекурсивного подхода «разделяй и властвуй». Поскольку они следуют жадному подходу, не всегда гарантируется, что сгенерированное решение будет оптимальным.

Мы подробно рассмотрим ID3, когда начнем писать код.

Что такое мера выбора атрибута?

Точно так же, как существует ряд алгоритмов для построения дерева решений, существует ряд мер по выбору атрибутов. Мера выбора атрибута — это эвристика, которая используется для выбора наилучшего атрибута для разделения набора данных.[1]

Проще говоря, это формула, которую мы применяем к набору данных, которая помогает нам выбрать, по какому атрибуту разделить. Цель каждого разделения — сделать набор данных чище.

«Чистый» набор данных — это набор данных, который содержит данные, принадлежащие только одному классу. Атрибут, выбранный для разделения, называется «атрибутом разделения». Прирост информации и индекс Джини являются двумя наиболее распространенными показателями выбора атрибутов.

Что такое обрезка деревьев?

Все большие наборы данных содержат некоторую форму шума и/или выбросов. Выброс — это аномальный ввод данных. Зашумленные данные — это данные, содержащие ошибки. И шум, и выбросы приводят к переоснащению. В случае деревьев решений переоснащение приводит к созданию дополнительных ветвей. Обрезка деревьев пытается идентифицировать и удалить эти ветви. Это делает дерево намного меньше, а классификацию быстрее.

Это все на данный момент. Мы рассмотрим получение информации в следующем посте.

Понравился пост? Не забудьте поставить ❤️.

Цитаты

[1] Хан, Цзявэй и Камбер, Мишлин. Интеллектуальный анализ данных: концепции и методы.