Аннотация
Изоляция, вызванная политиками приюта, потерей работы, потерей страховки и страхом заразиться вирусом COVID-19, может вызвать или усугубить проблемы с медицинским и психическим здоровьем среди американского населения.
В этом исследовании используются данные обследования пульса домашних хозяйств (HPS) Бюро переписи населения, чтобы изучить возможность построения модели, позволяющей предсказать, является ли человек уязвимым с медицинской или психической точки зрения, на основе его личных характеристик, таких как раса, пол. , медицинское страхование, самооценка чувства тревоги или депрессии и многое другое.
Полученные данные показывают, что на основе американских данных HPS можно построить модель для прогнозирования классификации человека как уязвимого (класс 1) с точностью 82% и отзывом 90% с использованием логистической регрессии.
Для целей данного исследования уязвимым человеком является лицо, которое нуждается и в медицинской помощи, и в психиатрической помощи, но не получала ни того, ни другого.
Введение
HPS был разработан Бюро переписи населения США в сотрудничестве с пятью другими федеральными агентствами. Это еженедельное перекрестное исследование. Целью HPS является сбор данных и оценка воздействия COVID-19 на статус занятости американских домашних хозяйств, жилищный статус, состояние психического здоровья и другие параметры благополучия.
Используя данные HPS, мы попытались изучить следующий вопрос исследования:
Можем ли мы построить модель прогнозирования с использованием данных HPS, собранных во время пандемии COVID-19, которая позволяет определить, уязвим ли человек с точки зрения психического / медицинского здоровья?
Мы определяем человека как уязвимого, если он сам сообщает, что соответствует следующим критериям:
- За последние 4 недели они нуждались в медицинской помощи по поводу чего-то другого, кроме коронавируса, но НЕ ПОЛУЧИЛИ ЭТО из-за пандемии.
- За последние 4 недели им потребовалась консультация или терапия у специалиста по психическому здоровью, но они НЕ ПОЛУЧИЛИ ЭТО по какой-либо причине.
Мы считаем это исследование важным для понимания свойств человека, которые могут привести к проблемам, связанным с психическим и медицинским здоровьем, но не получают поддержки, необходимой для решения этих проблем. Это исследование особенно актуально в эмоционально изнурительное время, например, во время пандемии COVID-19. Возможность предсказать, может ли кто-то не получить необходимую помощь, может позволить поставщикам медицинских и психиатрических услуг своевременно разрешить ситуацию.
Описание данных
Для целей данного исследования мы проанализировали следующие наборы данных:
- Индикаторы тревоги и депрессии NCHS COVID
- Страхование здоровья NCHS COVID
- NCHS COVID Психиатрическая помощь
Эти наборы данных представляли собой агрегаты переменных из исходных данных HPS (рис. 1), размер выборки не был включен и все данные были категориальными.
Мы изучили недостающие данные и пришли к выводу, что их целесообразно исключить из нашей модели, потому что:
- Мы заметили, что отсутствующие данные из нашего процесса EDA не имеют внутренней тенденции. Наиболее заметной характеристикой отсутствующих данных является большое количество респондентов, принадлежащих к белой расовой группе. Однако это могло быть связано с более высокой долей этой расовой группы в наборе данных. (Рисунки 2, 3 и 4 демонстрируют отсутствие тенденции в недостающих данных.)
- Доля отсутствующих данных составляет 22% от всего набора данных, мы определили, что было целесообразно отбросить отсутствующие данные.
Описание методов
Мы выполнили EDA для трех наборов данных NCHS, которые включали:
- Изучение переменных, столбцов и строк для понимания данных
- Визуализация следующих тенденций:
Еженедельная тенденция изменения доли лиц с симптомами депрессии и тревоги в разбивке по возрастным группам, образовательным группам и расовым / латиноамериканским этническим группам (рис. 7).
Еженедельная тенденция изменения доли лиц, которые нуждались в консультировании или терапии, но не получили их, с разбивкой по возрастным группам (рис. 8) и наличию симптомов тревожности / депрессии (рис. 9).
Еженедельная тенденция изменения доли лиц, которые нуждались в медицинской помощи, но не получали ее, с разбивкой по образовательной группе и по расовой / латиноамериканской этнической группе (рис. 10).
Еженедельный тренд изменения доли лиц, не имеющих медицинской страховки, в разбивке по возрастным группам (Рисунок 11).
Затем мы проанализировали данные за период с 25 ноября по 7 декабря 2020 г. из еженедельных данных HPS (Рисунок 12).
Мы определили эту неделю, в частности, из-за интересной тенденции, которую мы смогли наблюдать из исследовательского анализа данных NCHS, который предполагает, что это был период повышенной тревожности и депрессии перед внезапным падением (рис. 9).
Мы воздержались от включения большего количества недель в анализ из-за дополнительного риска смешивания переменных с каждой дополнительной неделей, учитывая бурные внешние факторы, которые спорадически возникали на протяжении всего периода исследования, такие как политическая нестабильность, полицейские стрельбы и протесты.
Функциональная инженерия
- Подсчитайте возраст респондентов опроса.
2. Создайте новую функцию, которая фиксирует, когда человек не получил медицинской помощи и не получал психиатрическую помощь, но нуждался в них обоих (1 = верно, 0 = неверно). Мы назвали эту новую функцию UNMET_NEED_GROUP.
3. Наши переменные-предикторы включали:
- 'ВОЗРАСТ'
- «EEDUC» (уровень образования)
- «ГОНКА»
- ‘RHISPANIC’ (латиноамериканского происхождения)
- «Тревога» (частота тревожности за предыдущие 7 дней)
- «Беспокойство» (частота беспокойства за предыдущие 7 дней)
- «ИНТЕРЕС» (Частота проявления небольшого интереса к вещам в течение предыдущих 7 дней)
- «ВНИЗ» (Частота ощущения депрессии за предыдущие 7 дней)
- «ЗАДЕРЖКА» (задержка оказания медицинской помощи за последние 4 недели из-за пандемии)
- ДОХОД (Общий доход семьи до налогообложения.)
- WRKLOSS (домохозяйство теряет доход от работы с 13 марта 2020 г.)
- EXPCTLOSS (домохозяйство потеряет доход от работы в следующие 4 недели из-за пандемии коронавируса)
- И наша переменная ответа - это созданная нами группа UNMET_NEED_GROUP.
Мы использовали 70% набора данных для обучения и 30% для тестирования. Мы обнаружили, что только 6% данных соответствовали UNMET_NEED_GROUP (с оценкой 1) и, следовательно, нуждались в устранении наших несбалансированных данных.
Мы сделали это, повысив выборку группы большинства (UNMET_NEED_GROUP == 0), что позволило нам систематически сбалансировать данные путем повторной выборки группы меньшинства (UNMET_NEED_GROUP == 1) . Окончательный фрейм данных выглядит так (рисунок 13)
Моделирование
Затем со сбалансированными данными мы реализуем логистическую регрессию, настраиваем гиперпараметры с помощью GridSearchCV, оптимальное значение C было 0,1, либлинейный решатель, регуляризация L1 и функция кросс-энтропийных потерь. Перекрестная проверка также применяется для предотвращения переобучения.
Наша окончательная модель представляет оценку точности для прогнозирования оценок класса 1 0,24, оценки отзыва 0,90 и точности 0,82 (рис. 14).
Мы хотели максимизировать отзыв, потому что в этом сценарии менее рискованно ложно идентифицировать людей как имеющих неудовлетворенные потребности, чем ложно НЕ идентифицировать кого-то, у кого есть неудовлетворенные потребности.
Наконец, мы хотели сравнить эффективность модели логистической регрессии с моделью случайного леса, потому что случайный лес должен быть более эффективным с несбалансированными данными. Поэтому мы снова обучили исходную модель, используя данные обучения, и спрогнозировали переменную отклика с помощью случайного леса. (Рисунок 15.)
Это оценило точность 0,34 и отзыв 0,28, случайный лес действительно привел к более высокой точности 0,92. Однако в данном конкретном случае это не идеально, поскольку мы хотим максимизировать оценку отзыва. Таким образом, мы определили, что логистическая регрессия служит более эффективной практикой моделирования для этой оценки.
Сводка результатов
Мы обнаружили, что в следующих группах населения симптомы тревожности и депрессии выше:
- Люди в возрасте 18–29 лет
- Люди с дипломом меньше среднего
- Люди, идентифицированные как неиспаноязычные, представители других рас и нескольких рас.
Мы также обнаружили, что:
- Лица в возрасте 18–29 лет указали, что они нуждались в консультировании или терапии с более высокими показателями на протяжении всей пандемии, и имели более высокие показатели отсутствия медицинской страховки.
- Лица, идентифицирующие себя как неиспаноязычные, представители других рас и нескольких рас, имели самый высокий уровень неудовлетворенных медицинских потребностей на протяжении всей пандемии.
Мы столкнулись с интересным открытием:
Лица с дипломами Some College / Associate были теми, кто испытывал самый высокий уровень неудовлетворенных медицинских потребностей.
Это казалось нелогичным, потому что мы предполагали более низкий уровень образования, например, диплом ниже среднего или диплом средней школы, или GED будет иметь более высокие показатели из-за предполагаемой вероятности наличия менее стабильной работы.
Наконец, мы обнаружили, что можем построить модель, используя американские данные HPS, чтобы предсказать классификацию человека как уязвимого (класс 1) с точностью 82% и отзывом 90% с использованием логистической регрессии (определение уязвимого человека как человек, который нуждается в медицинской помощи и психиатрической помощи, но не получил ни того, ни другого).
Обсуждение
Эта работа имеет значение для специалистов здравоохранения, которые стремятся помочь тем, кто не получает необходимой помощи.
Мы считаем, что медицинские учреждения и правительство могли бы извлечь выгоду, если бы уделяли больше внимания таким людям на основе нашей модели прогнозирования, чтобы:
- Учреждениям не нужно просматривать большие объемы данных, чтобы выяснить, какая группа людей нуждается в медицинской помощи.
- С разумной точностью и оценкой запоминания (около 90%) человек, обладающий определенными характеристиками (расовое происхождение, уровень образования, уровни дохода, возрастные группы, уровень тревожности), будет классифицирован как уязвимый человек.
Дальнейшие исследования могут включать изучение других характеристик, которые могут иметь значение при определении политики, затрагивающей уязвимых людей, например, изучение того, как жилье влияет на уровень уязвимости человека с точки зрения здоровья, или дальнейшее расширение нашего рабочего определения уязвимости.
Ограничения
Это исследование ограничено процедурой сбора, поскольку оно смещено в сторону лиц, имеющих доступ к Интернету, и, кроме того, лиц, имеющих доступ к настольным или портативным компьютерам, поскольку люди с меньшей вероятностью будут заполнять длинные анкеты со своих сотовых устройств. даже если они были приглашены для этого.
Он также ограничен тем, что отсутствует оценка ранее существовавших состояний респондентов, например, испытывали ли они тревогу, депрессию, имели ли неудовлетворенные медицинские или психические потребности или не имели медицинской страховки до пандемии. Это затрудняет оценку любых связей с самой пандемией COVID-19.
Авторы: Джеки Ху, Аманда Кочак
Ссылки
Рэйчел Доннелли, Матео П. Фарина, Как политика государства влияет на переживания потрясений семейного дохода и психического здоровья во время пандемии COVID-19?, Социальные науки и медицина,
Том 269, 2021 г., 113557, ISSN 0277–9536
Https://doi.org/10.1016/j.socscimed.2020.113557
(Https://www.sciencedirect.com/science/article/pii/S0277953620307760)
Файл общественного пользования обследования зернобобовых в домашних хозяйствах (PUF), Бюро переписи населения США
Https://www.census.gov/programs-surveys/household-pulse-survey/datasets.html
Индикаторы тревоги или депрессии, основанные на зарегистрированной частоте симптомов в течение последних 7 дней, Национальный центр статистики здравоохранения
Https://data.cdc.gov/NCHS/Indicators-of-Anxiety-or-Depression-Based-on-Repor/8pt5-q6wp
Психиатрическая помощь за последние 4 недели, Национальный центр статистики здравоохранения
Https://data.cdc.gov/NCHS/Mental-Health-Care-in-the-Last-4-Weeks/yni7-er2q
Показатели охвата медицинским страхованием на момент интервью, Национальный центр статистики здравоохранения
Https://data.cdc.gov/NCHS/Indicators-of-Health-Insurance-Coverage-at-the-Tim/jb9g-gnvr