Публикации по теме 'categorical-data'
Машинное обучение со смешанными эффектами для категориальных переменных высокой мощности - Часть I: эмпирический…
Почему случайные эффекты полезны для моделей машинного обучения
Категориальные переменные с высокой кардинальностью — это переменные, для которых количество различных уровней велико по сравнению с размером выборки набора данных, или, другими словами, на каждый уровень категориальной переменной приходится несколько точек данных. Методы машинного обучения могут иметь трудности с переменными высокой мощности. В этой статье мы утверждаем, что случайные эффекты являются эффективным..
Горячее кодирование в машинном обучении (для начинающих)
Введение в работу с категориальными данными в машинном обучении с использованием метода One-Hot Encoding.
Оглавление
Введение Что такое горячее кодирование? Преимущества недостатки Варианты использования горячего кодирования Заключение Рекомендации
1. Введение
Многие наборы реальных данных содержат категориальную информацию, такую как «возраст», «место рождения», «профессия» и т. д. Эти функции могут быть очень полезны при подготовке данных для анализа или разработки..
Освоение машинного обучения с категориальными данными: методы и ресурсы
Машинное обучение — это мощный инструмент, способный анализировать данные и учиться на них, чтобы делать прогнозы или принимать решения. Однако одной из ключевых проблем машинного обучения является работа с данными, которые по своей природе категоричны. Категориальные данные — это данные, которые можно разделить на группы или категории, такие как пол, цвет волос или тип продукта. В этой статье мы обсудим различные методы и ресурсы, которые помогут вам освоить машинное обучение с..
Категориальные данные
Что такое категориальные данные?
Категориальные данные — это тип данных, который может иметь два или более значений. Категориальные данные могут быть:
Номинальный Порядковый номер
Номинальные переменные не имеют числового порядка между ними, например, Цвет (красный, желтый, зеленый).
Порядковые переменные будут иметь какой-то порядок или связь между ними, например, уровень (высокий, средний, низкий).
Поскольку все модели машинного обучения основаны на математических..
Вопросы по теме 'categorical-data'
Числовая категориальная переменная в Sklearn
Мне любопытно, как sklearn работает с категориальными переменными, представленными числами, такими как Нью-Йорк=1 Бостон=2 Чикаго=3. Будет ли python знать, что это категорично, или просто рассматривать его как упорядоченное числовое значение? Я...
1551 просмотров
schedule
28.10.2023
Как избавиться от основных эффектов при кодировании взаимодействия между категориальными переменными в patsy?
У меня проблема очень похожа на:
Эффекты взаимодействия в patsy с patsy.dmatrices, дающими дубликаты столбцы для : как + или *
за исключением того, что у меня есть другие категориальные переменные, кроме термина взаимодействия. Моя формула:...
242 просмотров
schedule
28.12.2023
Многоклассовая классификация Spark — Категориальные переменные
У меня есть набор данных в виде файла csv. Он имеет около 50 столбцов, большинство из которых являются категориальными. Я планирую запустить многоклассовую классификацию RandomForest с новым набором тестовых данных.
Проблема этого заключается в...
597 просмотров
schedule
24.04.2024
Как создать категориальные переменные из текстовых значений в R
У меня есть набор данных с категориальной переменной Weather . Эта переменная имеет 3 разных текстовых значения: «Сухой», «Моросящий» и «Дождь».
Я хочу создать еще одну переменную, которой я могу присвоить числовые значения для этих переменных....
3218 просмотров
schedule
07.07.2022
Может ли тензорный поток обрабатывать категориальные функции с несколькими входными данными в одном столбце?
Например, у меня есть данные в следующем формате csv:
1, 2, 1:3:4, 2
0, 1, 3:5, 1
...
Каждый столбец, разделенный запятой, представляет одну функцию. Обычно функция является однократной ( например, col0, col1, col3 ), но в...
2112 просмотров
schedule
22.01.2024
Как получить манекены 0-1 для упорядоченных категориальных переменных в lm в R?
При запуске линейных моделей с категориальной зависимой переменной в R эта переменная внутренне перекодируется в фиктивные переменные:
unord <- data.frame(y = c(1, 2, 3, 12, 11, 13, 101, 103, 102, 1003, 1002, 1001),
cat =...
260 просмотров
schedule
14.10.2023
pandas cut (): как преобразовать nans? Или преобразовать вывод в некатегориальный?
Я использую pandas.cut () для столбцов фрейма данных с nans. Мне нужно запустить groupby на выходе pandas.cut (), поэтому мне нужно преобразовать nans во что-то еще (на выходе, а не во входных данных), иначе groupby будет глупо и раздражающе...
8360 просмотров
schedule
09.07.2022
Написание функции, классифицирующей числовой вектор с помощью mutate() и ifelse()
Простите, если это вопрос новичка. Я относительно новичок в R. Я практикую написание функций. В настоящее время я пытаюсь написать функцию, которая принимает любой числовой вектор, представляющий время, и классифицирует каждое наблюдение по...
86 просмотров
schedule
16.06.2024
Преобразовать непрерывный фрейм данных в категориальный
Я знаю, как преобразовать отдельные непрерывные переменные фрейма данных в категориальные переменные. Но как это сделать сразу для всего фрейма данных? Кажется, должен быть какой-то простой способ сделать это, но я его не вижу. В моем кадре данных...
517 просмотров
schedule
09.11.2023
Как предсказать, не совпадает ли количество функций с количеством функций, доступных в наборе тестов?
Я использую pandas get_dummies для преобразования категориальных переменных в фиктивные/индикаторные переменные, это вводит новые функции в набор данных. Затем мы вписываем/обучаем этот набор данных в модель.
Поскольку размерность X_train и...
2348 просмотров
schedule
10.10.2023
Получение кардинальности из порядкового кодирования в Scikit-learn
Я использую OrdinalEncoder для кодирования категориальных данных в Scikit-learn и ищу способ получить подробную информацию о кодировании. т.е. мощность каждой функции или даже точное сопоставление между числами и категориями.
Если не считать...
334 просмотров
schedule
19.02.2024
Изменение порядка вывода фиктивной переменной в линейной регрессии
Я запустил модель линейной регрессии для непрерывной зависимой переменной на категориальной независимой переменной с 10 уровнями. Я установил контрольную группу для категориальной переменной на уровень с самым высоким средним значением для зависимой...
130 просмотров
schedule
14.11.2023
Объединение трех фреймов данных для всех итераций цвета автомобиля, домашних животных и предметов, приобретенных в Pandas-groupby?
В настоящее время у меня есть три фрейма данных: покупки, цвета автомобилей и домашние животные. Пример этих данных может быть сформирован с помощью следующего кода:
import pandas as pd
cols = ['MEMBER', 'CAR_COLOR', 'PET', 'PURCHASE_TYPE',...
33 просмотров
schedule
03.11.2022