поэтому всякий раз, когда мы изучаем какой-либо алгоритм машинного обучения, широко используется термин горячее кодирование. Так что это такое и как это сделать?

Прежде всего, горячее кодирование - это метод, с помощью которого мы преобразуем категориальные данные в числовые данные. мы выполняем представление данных каждой категории в двоичном виде.

посмотрите для примера, предположим, что у нас есть данные об учащихся с их рейтингами как,

после одного горячего кодирования это будет выглядеть так,

Как это сделать в python…

Что ж, чтобы сделать это в python, мы должны загрузить наш Dataframe, для этого мы установим pandas и будем выполнять функцию read_csv () как,

как только Dataframe загружен, мы применим функцию pandas get_dummies (), чтобы назначить двоичные числа для каждого ранга, как,

Теперь, когда у нас есть макеты, мы объединим эти недавно сгенерированные четыре столбца с нашим существующим предыдущим фреймом данных и удалим столбец «ранг». Здесь ось = 1 представляет столбец, тогда он будет выглядеть точно так, как показано на рисунке выше.

Таким образом, мы можем выполнить одно горячее кодирование, когда только одна функция является горячей или активной, а остальные неактивны. таким образом мы можем уменьшить любую зависимость между переменными, если таковые существуют.