Оглавление:-

· Методы обработки отсутствующих данных :-
· Удалить их:-
· Вменение (заполнение) :-
1. Одномерное вменение :-
2. Многомерное вменение:-
· Методы многомерного вменения:-
· 1. КНН импутер :-
· 2. Алгоритм MICE :-

Методы обработки отсутствующих данных :-

  1. Удалить их :-
  2. Вменение (заполнение): -

Удалить их :-

Удаление нулевых значений, также известное как полный анализ случаев (CCA) или удаление по списку, включает отбрасывание строк или наблюдений, в которых отсутствуют значения в любой из переменных/столбцов. Это простой подход, при котором вы анализируете только те наблюдения, для которых есть полная информация во всех переменных набора данных.

# При применении CCA необходимо учитывать определенные допущения:-

  1. Полное случайное отсутствие (MCAR) – CCA предполагает, что отсутствие данных является полностью случайным, то есть отсутствующие значения не связаны с наблюдаемыми или ненаблюдаемыми переменными.
  2. Порог для отсутствующих данных. Как правило, если в столбце отсутствует более 5% данных, CCA может не применяться, так как это может привести к существенной потере информации.

# Преимущества CCA:-

  1. Простота реализации. CCA – это простой подход, поскольку он не требует каких-либо дополнительных манипуляций с данными или методов импутации.
  2. Сохраняет распределение переменных:- Если отсутствующие данные представляют собой MCAR, распределение переменных в сокращенном наборе данных должно точно соответствовать распределению в исходном наборе данных.

# Недостатки CCA:-

  1. Исключение большой части набора данных:- CCA может привести к исключению значительной части исходного набора данных, если отсутствующих данных много. Это уменьшение размера выборки может повлиять на статистическую мощность и обобщаемость анализа.
  2. Возможная потеря информативных наблюдений. Исключенные наблюдения с отсутствующими данными могут содержать ценную информацию для анализа. Если пропуск не является полностью случайным и связан с исходом или другими переменными, CCA может внести систематическую ошибку.
  3. Обработка отсутствующих данных в производственной среде. Если модели или анализы развернуты в производственных условиях, удаление отсутствующих значений может оказаться нецелесообразным или невыполнимым. В таких случаях необходимо рассмотреть альтернативные методы обработки отсутствующих данных, такие как вменение или специализированные модели.

вы можете обратиться к следующему коду и набору данных для лучшего понимания:-



Вменение (заполнение): -

Вменение относится к процессу заполнения отсутствующих или неполных данных оценочными или замещенными значениями.

Существует два основных подхода к вменению пропущенных значений: одномерное вменение и многомерное вменение.

1. Одномерное вменение :-

При одномерном вменении отсутствующие значения в определенном столбце вменяются с использованием статистических методов на основе значений в этом столбце. Вменение выполняется без учета других переменных или столбцов в наборе данных. Примеры методов одномерного вменения включают вменение среднего/медианы, вменение по моде.

# Одномерное вменение числовых данных :-

  1. Вменение среднего/медианы. При вменении среднего/медианы отсутствующие значения в числовом столбце заменяются средним или медианой доступных значений для этого столбца. Среднее обычно используется, когда распределение приблизительно симметрично, а медиана предпочтительнее, когда распределение асимметрично. Этот метод прост в реализации, но может изменить форму распределения и внести выбросы. Его можно использовать, когда отсутствующие данные представляют собой MCAR (полностью пропущенные случайным образом), а процент отсутствующих данных составляет менее 5 %.
  2. Вменение произвольного значения:- В вменении произвольного значения все отсутствующие значения заменяются одним произвольным значением. Этот метод можно использовать как для числовых, так и для категориальных переменных. Это полезно, когда отсутствующие данные не относятся к MCAR (например, отсутствующие данные связаны с определенной причиной) или когда отсутствует конкретная информация, которой можно было бы руководствоваться при вменении. Однако это может исказить функцию плотности вероятности (PDF), изменить дисперсию и повлиять на ковариацию и корреляцию между переменными.
  3. Вменение в конце распределения: этот метод является расширением вменения произвольных значений, при котором отсутствующие значения заменяются значением, находящимся в конце распределения, например максимальным или минимальным значением. Подобно произвольному вменению значений, он имеет те же преимущества и недостатки.
  4. Вменение по случайной выборке:- При вменении по случайной выборке отсутствующие значения заменяются случайными значениями, взятыми из наблюдаемых значений в том же столбце. Этот подход может применяться как к числовым, так и к категориальным данным. Это помогает сохранить распределение и отношения внутри переменной.

вы можете обратиться к следующему коду и набору данных для импутации случайной выборки для лучшего понимания: -



вы можете обратиться к следующему коду и набору данных для обработки отсутствующих числовых данных для лучшего понимания: -



# Одномерное вменение для категориальных данных :-

  1. Замена наиболее часто встречающимися значениями (режим) :- Этот подход включает замену отсутствующих значений наиболее часто встречающейся категорией в соответствующем столбце. Он обычно используется, когда отсутствующие данные считаются отсутствующими случайным образом (MAR), что означает, что вероятность отсутствия значения не связана с самим фактическим значением. Импутация моды — это простой и быстрый метод заполнения пропущенных значений.

Когда использовать :-

  • Отсутствующие данные отсутствуют случайным образом (MAR).
  • Процент отсутствующих данных относительно невелик, обычно менее 5% от общего числа наблюдений.

2. Создайте новую категорию по имени «Отсутствующие» (вменение отсутствующих категорий): — В этом подходе создается новая категория специально для представления отсутствующих значений.

Когда использовать :-

  • Отсутствующие данные не отсутствуют случайно (NMAR) или отсутствие связано с фактическим значением.
  • Процент отсутствующих данных относительно высок, обычно более 5% от общего числа наблюдений.
  • Вы хотите сохранить информацию об отсутствии значений и рассматривать ее как отдельную категорию.

вы можете обратиться к следующему коду и набору данных для обработки отсутствующих категорийных данных для лучшего понимания: -



Вот некоторые методы, которые можно применять как к числовым, так и к категориальным данным для обработки пропущенных значений:

  1. Случайное вменение:- Случайное вменение включает в себя случайный выбор значения из наблюдаемых значений в соответствующем столбце и замену им отсутствующих значений. Этот метод помогает сохранить дисперсию переменной и особенно полезен для линейных моделей, поскольку не искажает распределение независимо от процента пропущенных значений.
  2. Отсутствующий индикатор. Подход с отсутствующим индикатором включает создание нового двоичного столбца, чтобы указать, отсутствует ли значение в исходном столбце. Этот метод позволяет фиксировать информацию о пропаже как отдельный признак. Вы присваиваете значение «Истина» или «1», чтобы указать отсутствующее значение, и «Ложь» или «0», чтобы указать неотсутствующее значение.

вы можете обратиться к следующему коду и набору данных для отсутствующего индикатора для лучшего понимания:-



  1. Автоматический выбор значения для вменения. В этом подходе вы можете использовать такие методы, как поиск по сетке с перекрестной проверкой (GridSearchCV), чтобы автоматически выбирать наилучшее значение вменения. Этот метод применим, когда у вас есть несколько доступных методов вменения, и вы хотите найти оптимальную стратегию вменения для ваших данных. GridSearchCV систематически пробует разные комбинации значений импутации и оценивает их эффективность на основе заданной метрики, чтобы определить наилучший подход к импутации.

вы можете обратиться к следующему коду и набору данных для автоматического выбора значения для вменения для лучшего понимания: -



Важно отметить, что эти методы — всего лишь несколько примеров, и существуют различные другие методы для обработки отсутствующих данных, как для числовых, так и для категориальных переменных. Выбор метода зависит от конкретных характеристик ваших данных, шаблона отсутствующих данных и целей вашего анализа или задачи моделирования.

2. Многомерное вменение :-

При многомерном вменении отсутствующие значения в столбце вставляются с использованием статистических методов, учитывающих значения других переменных или столбцов в наборе данных. Вменение выполняется путем рассмотрения взаимосвязей и закономерностей между переменными. Методы многомерного вменения используют доступную информацию из нескольких переменных для более точного вменения отсутствующих значений. Примеры методов многомерного вменения включают множественное вменение, регрессионное вменение с использованием других переменных или такие методы, как вменение K-ближайших соседей (KNN).

Многомерные методы вменения:-

1. Импутант KNN :-

KNN Imputer — это метод многомерного вменения, который использует алгоритм K-ближайших соседей для вменения пропущенных значений. Он рассматривает значения из других столбцов, чтобы заполнить пропущенные значения на основе сходства между точками данных.

Этапы импутера KNN :-

a) Найдите K-ближайших соседей:- Алгоритм идентифицирует K точек данных (соседей), которые наиболее похожи на точку данных с отсутствующим значением. Сходство измеряется с помощью евклидова расстояния или другого подходящего показателя расстояния.

b) Определите значение: - После определения ближайших соседей отсутствующее значение в целевой точке данных заполняется значением одного из соседей. Конкретный метод выбора значения может варьироваться, например, взятие среднего значения, медианы или режима соседних значений.

Нан-евклидово расстояние:- Нан-евклидово расстояние — это вариант вычисления евклидова расстояния, который учитывает пропущенные значения в точках данных.

Формула:- dist(x,y) = sqrt(вес * кв. расстояние от текущих координат), где вес = общее количество. координат / № текущих координат

Преимущество KNN Imputer:-

Повышенная точность: рассматривая значения из других столбцов и используя концепцию подобия, KNN Imputer может обеспечить более точные вменения по сравнению с простыми методами, такими как вменение среднего или режима.

вы можете обратиться к следующему коду и набору данных для импьютера KNN для лучшего понимания: -



2. Алгоритм MICE:-

Алгоритм многомерного вменения с помощью цепных уравнений (MICE) является популярным методом обработки отсутствующих данных, когда предполагается, что отсутствующие данные представляют собой случайные пропущенные данные (MAR). Это итеративный метод вменения, который заполняет пропущенные значения путем моделирования условного распределения каждой пропущенной переменной с учетом наблюдаемых переменных.

вы можете обратиться к следующему коду и набору данных для алгоритма мышей для лучшего понимания:-



Спасибо, что присоединились ко мне в этом путешествии, чтобы понять, как обращаться с отсутствующими данными. Я надеюсь, что этот блог предоставил вам ценную информацию и практические подходы к решению этой общей проблемы. Помните, что, обращаясь к отсутствующим данным, мы можем раскрыть истинный потенциал наших наборов данных и получить более точные и надежные результаты. Удачного анализа, и пусть ваши будущие данные будут полными и информативными!