Streszczenie

Izolacja spowodowana polityką schroniska, utratą pracy, utratą ubezpieczenia i obawą przed zarażeniem się wirusem Covid-19 może wywołać lub zaostrzyć problemy zdrowotne i psychiczne wśród populacji amerykańskiej.

W tym badaniu wykorzystano dane Census Bureau Household Pulse Survey (HPS), aby zbadać możliwość zbudowania modelu umożliwiającego przewidywanie, czy dana osoba jest osobą niebezpieczną pod względem medycznym lub psychicznym, na podstawie jej cech osobistych, takich jak rasa, płeć , opiekę medyczną, zgłaszane przez siebie uczucie lęku lub depresji i nie tylko.

Wyniki wskazują, że możliwe jest zbudowanie modelu wykorzystującego dane amerykańskiego HPS w celu przewidzenia klasyfikacji danej osoby jako osoby bezbronnej (klasa 1) z dokładnością 82% i powtarzalnością na poziomie 90% przy użyciu regresji logistycznej.

Na potrzeby tego badania osoba bezbronna to osoba, która potrzebuje zarówno opieki medycznej, jak i opieki w zakresie zdrowia psychicznego, ale żadnej z nich nie otrzymała.

Wprowadzenie

HPS został opracowany przez US Census Bureau we współpracy z pięcioma innymi agencjami federalnymi. Jest to cotygodniowe badanie przekrojowe. Celem HPS jest gromadzenie danych i ocena wpływu Covid-19 na status zatrudnienia, status mieszkaniowy, stan zdrowia psychicznego i inne wymiary dobrostanu w amerykańskim gospodarstwie domowym.

Wykorzystując dane HPS, staraliśmy się zbadać następujące pytanie badawcze:

Czy możemy zbudować model prognostyczny, korzystając z danych HPS zebranych podczas pandemii COVID-19, który pozwoli przewidzieć, czy dana osoba jest podatna na zagrożenia pod względem zdrowia psychicznego/medycznego?

Definiujemy osobę jako bezbronną, jeśli sama zgłosi, że spełnia następujące kryteria:

  1. W ciągu ostatnich 4 tygodni potrzebowali opieki medycznej z innego powodu niż koronawirus, ale NIE UDZIELILI jej ze względu na pandemię.
  2. W ciągu ostatnich 4 tygodni potrzebowali porady lub terapii ze strony specjalisty ds. zdrowia psychicznego, ale z jakiegokolwiek powodu NIE DOSTALIŚMY TEGO.

Uważamy, że to badanie jest ważne dla zrozumienia cech jednostki, które mogą prowadzić do wyzwań związanych ze zdrowiem psychicznym i medycznym, ale nie otrzymuje ona wsparcia potrzebnego do stawienia czoła tym wyzwaniom. Badania te są szczególnie wzruszające w tak wyczerpującym emocjonalnie czasie, jak pandemia Covid-19. Zdolność przewidzenia, czy dana osoba może nie otrzymać potrzebnej pomocy, może potencjalnie umożliwić podmiotom świadczącym usługi medyczne i psychiczne proaktywne zajęcie się sytuacją.

Opis danych

Na potrzeby tego badania przeanalizowaliśmy następujące zbiory danych:

  1. NCHS COVID Wskaźniki lęku i depresji
  2. Ubezpieczenie zdrowotne NCHS COVID
  3. Opieka zdrowotna w zakresie zdrowia psychicznego NCHS

Te zbiory danych były agregacją zmiennych z oryginalnych danych HPS (ryc. 1), nie uwzględniono wielkości próbek i wszystkie dane były danymi kategorycznymi.

Zbadaliśmy brakujące dane i doszliśmy do wniosku, że właściwe będzie usunięcie ich z naszego modelu, ponieważ:

  1. Zaobserwowaliśmy, że nie ma nieodłącznej tendencji w zakresie brakujących danych z naszego procesu EDA. Najbardziej zauważalną cechą brakujących danych jest duża liczba respondentów należących do rasy białej. Może to jednak wynikać z większej części tej grupy rasowej w zbiorze danych. (Rysunki 2, 3 i 4 przedstawiają wizualizację braku trendu w zakresie brakujących danych.)
  2. Odsetek brakujących danych stanowi 22% całego zbioru danych. Ustaliliśmy, że właściwe będzie usunięcie brakujących danych.

Opis metod

Przeprowadziliśmy EDA na trzech zbiorach danych NCHS, które obejmowały:

  1. Eksplorowanie zmiennych, kolumn i wierszy w celu zrozumienia danych
  2. Wizualizacja następujących trendów:

Tygodniowa tendencja zmiany odsetka osób z objawami depresji i lęku w podziale na grupę wiekową, wykształcenie i rasę/latynoską grupę etniczną (wykres 7).

Tygodniowy trend zmiany odsetka osób, które potrzebowały poradnictwa lub terapii, ale ich nie otrzymały, w podziale na grupę wiekową (Wykres 8) i obecność objawów lęku/depresji (Wykres 9).

Tygodniowa tendencja zmiany odsetka osób, które potrzebowały opieki medycznej, ale jej nie otrzymały, w podziale na grupę z wykształceniem i rasę/grupę etniczną pochodzenia latynoskiego (wykres 10).

Tygodniowy trend zmiany odsetka osób nie posiadających ubezpieczenia zdrowotnego w podziale na grupy wiekowe (wykres 11).

Następnie przeanalizowaliśmy dane z tygodniowych danych HPS w okresie od 25 listopada do 7 grudnia 2020 r. (ryc. 12).

Zidentyfikowaliśmy ten tydzień w szczególności ze względu na interesującą tendencję, którą mogliśmy zaobserwować na podstawie eksploracyjnej analizy danych NCHS, która sugeruje, że był to okres wzmożonego lęku i depresji, poprzedzający nagły spadek (wykres 9).

Powstrzymaliśmy się od uwzględnienia w analizie większej liczby tygodni ze względu na dodatkowe ryzyko pomieszania zmiennych z każdym dodatkowym tygodniem, biorąc pod uwagę burzliwe czynniki zewnętrzne, które występowały sporadycznie w całym okresie objętym badaniem, takie jak niestabilność polityczna, strzelaniny policyjne i protesty.

Inżynieria funkcji

  1. Oblicz wiek respondentów ankiety.

2. Utwórz nową funkcję, która rejestruje, kiedy dana osoba nie uzyskała opieki medycznej i nie uzyskała opieki w zakresie zdrowia psychicznego, ale potrzebuje ich obu (1 = prawda, 0 = fałsz). Nazwaliśmy tę nową funkcję UNMET_NEED_GROUP.

3. Nasze zmienne predykcyjne obejmowały:

  1. 'WIEK'
  2. „EEDUC” (osiągnięcia edukacyjne)
  3. „WYŚCIG”
  4. „RHISZPANIA” (pochodzenie latynoskie)
  5. „NIEPOKOJONY” (częstotliwość lęku w ciągu ostatnich 7 dni)
  6. „Zmartwienie” (częstotliwość zmartwień w ciągu ostatnich 7 dni)
  7. „ZAinteresowanie” (częstotliwość niewielkiego zainteresowania rzeczami w ciągu ostatnich 7 dni)
  8. „DOWN” (częstotliwość odczuwania depresji w ciągu ostatnich 7 dni)
  9. „OPÓŹNIENIE” (Opóźnienie opieki medycznej w ciągu ostatnich 4 tygodni z powodu pandemii)
  10. DOCHÓD (Całkowity dochód gospodarstwa domowego przed opodatkowaniem.)
  11. UTRATA WRK(od dnia 13 marca 2020 r. gospodarstwo domowe utraciło dochody z tytułu pracy)
  12. BEZPŁATNA UTRATA (w ciągu najbliższych 4 tygodni gospodarstwo domowe odczuje utratę dochodów z pracy z powodu pandemii korona wirusa)
  13. A naszą zmienną odpowiedzi jest utworzona przez nas UNMET_NEED_GROUP.

Wykorzystaliśmy 70% zbioru danych do szkolenia, a 30% do testów. Ustaliliśmy, że tylko 6% danych spełniało UNMET_NEED_GROUP (ocena 1) i dlatego należało uwzględnić nasze niezrównoważone dane.

Zrobiliśmy to poprzez upsampling grupy większościowej(UNMET_NEED_GROUP == 0), co pozwoliło nam na systematyczne zrównoważenie danych poprzez ponowne próbkowanie grupy mniejszościowej(UNMET_NEED_GROUP ==1). Ostateczna ramka danych wygląda następująco (rysunek 13)

Modelowanie

Mając zrównoważone dane, następnie wdrażamy regresję logistyczną, dostrajamy hiperparametry za pomocą GridSearchCV, optymalne C wynosiło 0,1, solwer liblinearny, regularyzacja L1 i funkcja utraty entropii krzyżowej. Aby zapobiec nadmiernemu dopasowaniu, stosowana jest również walidacja krzyżowa.

Nasz ostateczny model przedstawia wynik precyzji przewidywania ocen klasy 1 na poziomie 0,24, wynik przypominania na poziomie 0,90 i dokładność na poziomie 0,82 (rysunek 14).

Chcieliśmy zmaksymalizować zapamiętywanie, ponieważ w tym scenariuszu fałszywe identyfikowanie osób jako mających niezaspokojone potrzeby jest mniej ryzykowne niż fałszywe identyfikowanie kogoś, kto ma niezaspokojone potrzeby.

Na koniec chcieliśmy porównać skuteczność modelu regresji logistycznej z modelem Random Forest, ponieważ Random Forest powinien być bardziej skuteczny w przypadku niezrównoważonych danych. Dlatego ponownie przeszkoliliśmy oryginalny model, korzystając z danych uczących, i przewidzieliśmy zmienną odpowiedzi, korzystając z Random Forest. (Rysunek 15.)

Oceniło to precyzję na poziomie 0,34 i zapamiętanie na poziomie 0,28, Random Forest rzeczywiście doprowadziło do wyższej dokładności wynoszącej 0,92. Jednak w tym konkretnym przypadku nie jest to idealne rozwiązanie, ponieważ chcemy zmaksymalizować wynik zapamiętywania. Dlatego ustaliliśmy, że regresja logistyczna służy jako bardziej skuteczna praktyka modelowania w tej ocenie.

Podsumowanie wyników

Odkryliśmy, że następujące populacje mają częstsze objawy lęku i depresji:

  1. Osoby w wieku 18–29 lat
  2. Osoby z wykształceniem niższym niż średnia
  3. Osoby zidentyfikowane jako osoby niebędące Latynosami, osoby innej rasy lub osoby wielu ras.

Ustaliliśmy również, że:

  1. Osoby w wieku 18–29 lat częściej wskazywały, że w trakcie pandemii potrzebują poradnictwa lub terapii i częściej nie były ubezpieczone.
  2. W ciągu całej pandemii najwyższy wskaźnik niezaspokojonych potrzeb medycznych odnotowano w przypadku osób identyfikujących się jako osoby niebędące Latynosami, innych ras lub wielu ras.

Ciekawym odkryciem, na które natrafiliśmy, było:

Osoby z wyższym wykształceniem/stopniem naukowym doświadczały najwyższego poziomu niezaspokojonych potrzeb medycznych.

Wydawało się to sprzeczne z intuicją, ponieważ założyliśmy, że niższe poziomy wykształcenia, takie jak dyplom ukończenia szkoły średniej, dyplom ukończenia szkoły średniej lub GED, będą miały wyższe wskaźniki ze względu na domniemane prawdopodobieństwo posiadania mniej stabilnej pracy.

Na koniec odkryliśmy, że byliśmy w stanie zbudować model, wykorzystując dane amerykańskiego HPS, do przewidywania klasyfikacji osoby jako bezbronnej (klasa 1.) z dokładnością 82% i zapamiętywaniem na poziomie 90% przy użyciu regresji logistycznej (Definiowanie osoby podatnej na zagrożenia jako osoba, która potrzebuje zarówno opieki medycznej, jak i opieki w zakresie zdrowia psychicznego, ale żadnej z nich nie otrzymała).

Dyskusja

Praca ta ma konsekwencje dla pracowników służby zdrowia, których celem jest pomoc tym, którzy nie otrzymują potrzebnej pomocy.

Wierzymy, że instytucje medyczne i rządy mogłyby odnieść korzyści, zwracając większą uwagę na takie osoby w oparciu o nasz model prognostyczny, tak aby:

  1. Instytucje nie muszą przeglądać dużej liczby punktów danych, aby dowiedzieć się, która grupa osób potrzebuje pomocy medycznej.
  2. Przy rozsądnej dokładności i wskaźniku zapamiętywania (około 90%) osoba prezentująca określone cechy (pochodzenie rasowe, poziom wykształcenia, poziom dochodów, grupa wiekowa, poziom lęku) zostanie sklasyfikowana jako osoba bezbronna.

Dalsze badania mogłyby obejmować zbadanie innych cech, które mogą być istotne w określeniu polityki mającej wpływ na osoby bezbronne, na przykład zbadanie, w jaki sposób warunki mieszkaniowe wpływają na poziom bezbronności jednostki w zakresie zdrowia lub dalsze rozszerzanie naszej operacyjnej definicji podatności na zagrożenia.

Ograniczenia

Niniejsze badanie ma ograniczone procedury zbierania danych, ponieważ jest ukierunkowane na osoby posiadające dostęp do Internetu, a ponadto na osoby posiadające dostęp do komputerów stacjonarnych lub laptopów, ponieważ jest mniejsze prawdopodobieństwo, że osoby te wypełnią długi kwestionariusz za pomocą urządzeń komórkowych, nawet jeśli zostali do tego zaproszeni.

Ogranicza je również to, że nie ocenia się wcześniej istniejących schorzeń respondentów, np. tego, czy odczuwali stany lękowe, depresję, czy mieli niezaspokojone potrzeby medyczne lub w zakresie zdrowia psychicznego lub czy nie posiadali ubezpieczenia zdrowotnego przed pandemią. To sprawia, że ​​ocena wszelkich powiązań z samą pandemią Covid-19 jest wyzwaniem.

Autorzy: Jackie Hu, Amanda Kochak

Referencje

Rachel Donnelly, Mateo P. Farina, Jak polityka państwa kształtuje doświadczenia związane z szokami dochodowymi gospodarstw domowych i zdrowiem psychicznym podczas pandemii COVID-19?, Nauki społeczne i medycyna,

Tom 269, 2021, 113557, ISSN 0277–9536

https://doi.org/10.1016/j.socscimed.2020.113557

(https://www.sciencedirect.com/science/article/pii/S0277953620307760)

Plik badania tętna gospodarstw domowych do użytku publicznego (PUF), Biuro Spisu Ludności Stanów Zjednoczonych

https://www.census.gov/programs-surveys/household-pulse-survey/datasets.html

Wskaźniki lęku lub depresji na podstawie zgłaszanej częstotliwości objawów w ciągu ostatnich 7 dni, Krajowe Centrum Statystyk Zdrowia

https://data.cdc.gov/NCHS/Indicators-of-Anxiety-or-Depression-Based-on-Repor/8pt5-q6wp

Opieka psychiatryczna w ciągu ostatnich 4 tygodni, Krajowe Centrum Statystyk Zdrowia

https://data.cdc.gov/NCHS/Mental-Health-Care-in-the-Last-4-Weeks/yni7-er2q

Wskaźniki objęcia ubezpieczeniem zdrowotnym w momencie rozmowy kwalifikacyjnej, Krajowe Centrum Statystyki Zdrowia

https://data.cdc.gov/NCHS/Indicators-of-Health-Insurance-Coverage-at-the-Tim/jb9g-gnvr