Публикации по теме 'categorical-data'


Машинное обучение со смешанными эффектами для категориальных переменных высокой мощности   -  Часть I: эмпирический…
Почему случайные эффекты полезны для моделей машинного обучения Категориальные переменные с высокой кардинальностью — это переменные, для которых количество различных уровней велико по сравнению с размером выборки набора данных, или, другими словами, на каждый уровень категориальной переменной приходится несколько точек данных. Методы машинного обучения могут иметь трудности с переменными высокой мощности. В этой статье мы утверждаем, что случайные эффекты являются эффективным..

Горячее кодирование в машинном обучении (для начинающих)
Введение в работу с категориальными данными в машинном обучении с использованием метода One-Hot Encoding. Оглавление Введение Что такое горячее кодирование? Преимущества недостатки Варианты использования горячего кодирования Заключение Рекомендации 1. Введение Многие наборы реальных данных содержат категориальную информацию, такую ​​как «возраст», «место рождения», «профессия» и т. д. Эти функции могут быть очень полезны при подготовке данных для анализа или разработки..

Освоение машинного обучения с категориальными данными​: методы и ресурсы
Машинное обучение — это мощный инструмент, способный анализировать данные и учиться на них, чтобы делать прогнозы или принимать решения. Однако одной из ключевых проблем машинного обучения является работа с данными, которые по своей природе категоричны. Категориальные данные — это данные, которые можно разделить на группы или категории, такие как пол, цвет волос или тип продукта. В этой статье мы обсудим различные методы и ресурсы, которые помогут вам освоить машинное обучение с..

Категориальные данные
Что такое категориальные данные? Категориальные данные — это тип данных, который может иметь два или более значений. Категориальные данные могут быть: Номинальный Порядковый номер Номинальные переменные не имеют числового порядка между ними, например, Цвет (красный, желтый, зеленый). Порядковые переменные будут иметь какой-то порядок или связь между ними, например, уровень (высокий, средний, низкий). Поскольку все модели машинного обучения основаны на математических..

Вопросы по теме 'categorical-data'

Числовая категориальная переменная в Sklearn
Мне любопытно, как sklearn работает с категориальными переменными, представленными числами, такими как Нью-Йорк=1 Бостон=2 Чикаго=3. Будет ли python знать, что это категорично, или просто рассматривать его как упорядоченное числовое значение? Я...
1551 просмотров

Как избавиться от основных эффектов при кодировании взаимодействия между категориальными переменными в patsy?
У меня проблема очень похожа на: Эффекты взаимодействия в patsy с patsy.dmatrices, дающими дубликаты столбцы для : как + или * за исключением того, что у меня есть другие категориальные переменные, кроме термина взаимодействия. Моя формула:...
242 просмотров

Многоклассовая классификация Spark — Категориальные переменные
У меня есть набор данных в виде файла csv. Он имеет около 50 столбцов, большинство из которых являются категориальными. Я планирую запустить многоклассовую классификацию RandomForest с новым набором тестовых данных. Проблема этого заключается в...
597 просмотров

Как создать категориальные переменные из текстовых значений в R
У меня есть набор данных с категориальной переменной Weather . Эта переменная имеет 3 разных текстовых значения: «Сухой», «Моросящий» и «Дождь». Я хочу создать еще одну переменную, которой я могу присвоить числовые значения для этих переменных....
3218 просмотров
schedule 07.07.2022

Может ли тензорный поток обрабатывать категориальные функции с несколькими входными данными в одном столбце?
Например, у меня есть данные в следующем формате csv: 1, 2, 1:3:4, 2 0, 1, 3:5, 1 ... Каждый столбец, разделенный запятой, представляет одну функцию. Обычно функция является однократной ( например, col0, col1, col3 ), но в...
2112 просмотров

Как получить манекены 0-1 для упорядоченных категориальных переменных в lm в R?
При запуске линейных моделей с категориальной зависимой переменной в R эта переменная внутренне перекодируется в фиктивные переменные: unord <- data.frame(y = c(1, 2, 3, 12, 11, 13, 101, 103, 102, 1003, 1002, 1001), cat =...
260 просмотров
schedule 14.10.2023

pandas cut (): как преобразовать nans? Или преобразовать вывод в некатегориальный?
Я использую pandas.cut () для столбцов фрейма данных с nans. Мне нужно запустить groupby на выходе pandas.cut (), поэтому мне нужно преобразовать nans во что-то еще (на выходе, а не во входных данных), иначе groupby будет глупо и раздражающе...
8360 просмотров
schedule 09.07.2022

Написание функции, классифицирующей числовой вектор с помощью mutate() и ifelse()
Простите, если это вопрос новичка. Я относительно новичок в R. Я практикую написание функций. В настоящее время я пытаюсь написать функцию, которая принимает любой числовой вектор, представляющий время, и классифицирует каждое наблюдение по...
86 просмотров
schedule 16.06.2024

Преобразовать непрерывный фрейм данных в категориальный
Я знаю, как преобразовать отдельные непрерывные переменные фрейма данных в категориальные переменные. Но как это сделать сразу для всего фрейма данных? Кажется, должен быть какой-то простой способ сделать это, но я его не вижу. В моем кадре данных...
517 просмотров
schedule 09.11.2023

Как предсказать, не совпадает ли количество функций с количеством функций, доступных в наборе тестов?
Я использую pandas get_dummies для преобразования категориальных переменных в фиктивные/индикаторные переменные, это вводит новые функции в набор данных. Затем мы вписываем/обучаем этот набор данных в модель. Поскольку размерность X_train и...
2348 просмотров

Получение кардинальности из порядкового кодирования в Scikit-learn
Я использую OrdinalEncoder для кодирования категориальных данных в Scikit-learn и ищу способ получить подробную информацию о кодировании. т.е. мощность каждой функции или даже точное сопоставление между числами и категориями. Если не считать...
334 просмотров
schedule 19.02.2024

Изменение порядка вывода фиктивной переменной в линейной регрессии
Я запустил модель линейной регрессии для непрерывной зависимой переменной на категориальной независимой переменной с 10 уровнями. Я установил контрольную группу для категориальной переменной на уровень с самым высоким средним значением для зависимой...
130 просмотров

Объединение трех фреймов данных для всех итераций цвета автомобиля, домашних животных и предметов, приобретенных в Pandas-groupby?
В настоящее время у меня есть три фрейма данных: покупки, цвета автомобилей и домашние животные. Пример этих данных может быть сформирован с помощью следующего кода: import pandas as pd cols = ['MEMBER', 'CAR_COLOR', 'PET', 'PURCHASE_TYPE',...
33 просмотров