Rezumat
Izolarea declanșată de politicile de adăpost, pierderea locului de muncă, pierderea asigurărilor și teama de a contracta virusul COVID-19 are potențialul de a stimula sau exacerba provocările medicale și de sănătate mintală în rândul populației americane.
Acest studiu folosește datele Census Bureau Household Pulse Survey (HPS)pentru a explora capacitatea de a construi un model care să prezică dacă o persoană este o persoană vulnerabilă din punct de vedere medical sau mental, pe baza caracteristicilor sale personale, cum ar fi rasa, sexul , acoperire medicală, sentimente auto-raportate de anxietate sau depresie și multe altele.
Constatările indică faptul căeste posibil să se construiască un model folosind datele americane HPS pentru a prezice clasificarea unui individ ca vulnerabil (Clasa 1) cu o precizie de 82% și o reamintire de 90% folosind regresia logistică.
Definiția de a fi o persoană vulnerabilă în scopul acestui studiu este o persoană care are nevoie atât de îngrijire medicală, cât și de îngrijire a sănătății mintale, dar nu a primit nici una.
Introducere
HPS a fost dezvoltat de Biroul de Recensământ al SUA în colaborare cu alte cinci agenții federale. Este un sondaj săptămânal, transversal. Scopul HPS este de a colecta date și de a evalua impactul COVID-19 asupra statutului de angajare a gospodăriilor americane, a stării de locuință, a stării de sănătate mintală și a altor dimensiuni ale bunăstării.
Utilizând datele HPS, am căutat să investigăm următoarea întrebare de cercetare:
Putem construi un model de predicție folosind datele HPS colectate în timpul pandemiei de COVID-19, care prezice dacă o persoană este vulnerabilă în ceea ce privește sănătatea mintală/medicală?
Definim o persoană ca fiind vulnerabilă dacă raportează că îndeplinește următoarele criterii:
- În ultimele 4 săptămâni, au avut nevoie de îngrijiri medicale pentru altceva decât coronavirus, dar NU L-au primit din cauza pandemiei.
- În ultimele 4 săptămâni, au avut nevoie de consiliere sau terapie de la un profesionist în domeniul sănătății mintale, dar NU L-au primit din niciun motiv.
Considerăm că această cercetare este importantă pentru înțelegerea atributelor unui individ care poate duce la provocări asociate cu sănătatea mintală și medicală, dar nu primește sprijinul necesar pentru a aborda aceste provocări. Într-o perioadă epuizantă emoțional, cum ar fi în timpul pandemiei de COVID-19, această cercetare face deosebit de emoționantă. Abilitatea de a prezice dacă cineva ar putea să nu primească ajutorul de care are nevoie are potențialul de a permite furnizorilor de servicii medicale și de sănătate mintală să abordeze în mod proactiv situația.
Descrierea datelor
În scopul acestei investigații, am analizat următoarele seturi de date:
- Indicatorii NCHS COVID de anxietate și depresie
- Acoperirea de asigurări de sănătate NCHS COVID
- NCHS COVID de îngrijire a sănătății mintale
Aceste seturi de date au fost agregari de variabile din datele originale HPS (Figura 1), că nu au fost incluse dimensiuni ale eșantionului și că toate datele erau date categorice.
Am explorat datele lipsă și am concluzionat că este oportun să le renunțăm din modelul nostru deoarece:
- Am observat că nu există nicio tendință inerentă în datele lipsă din procesul nostru EDA. Cea mai remarcabilă caracteristică a datelor lipsă este numărul mare de respondenți care aparțin grupului rasial alb. Cu toate acestea, acest lucru s-ar putea datora unei părți mai mari a acestui grup rasial din setul de date. (Figurile 2, 3 și 4 oferă o vizualizare a lipsei de tendință a datelor lipsă.)
- Proporția datelor lipsă reprezintă 22% din întregul set de date, am stabilit că este oportun să renunțăm la datele lipsă.
Descrierea metodelor
Am efectuat EDA pe cele trei seturi de date NCHS, care au implicat:
- Explorarea variabilelor, coloanelor și rândurilor pentru a înțelege datele
- Vizualizarea următoarelor tendințe:
Tendința săptămânală a schimbării proporției de indivizi cu simptome de depresie și anxietate pe grupe de vârstă, pe grupe de educație și pe grupe de rasă/etnie hispanică (Figura 7).





Tendința săptămânală a schimbării proporției de indivizi care au avut nevoie de consiliere sau terapie, dar nu au primit-o, în funcție de grupa de vârstă (Figura 8) și de prezența simptomelor de anxietate/depresie (Figura 9).


Tendința săptămânală în schimbarea proporției de indivizi care au avut nevoie de îngrijire medicală, dar nu au primit-o, în funcție de grupul de educație și de rasă/grupul de etnie hispanică (Figura 10).


Tendința săptămânală a schimbării proporției persoanelor care nu au asigurare de sănătate, pe grupe de vârstă (Figura 11).

Apoi am analizat datele în special din 25 noiembrie - 7 decembrie 2020, din datele HPS săptămânale (Figura 12).
Am identificat săptămâna aceasta în special datorită tendinței interesante pe care am putut-o observa din analiza datelor exploratorii NCHS, ceea ce sugerează că a fost o perioadă de anxietate și depresie crescută înainte de o scădere bruscă (Figura 9).
Ne-am abținut să includem mai multe săptămâni în analiză din cauza riscului suplimentar de confuzie a variabilelor cu fiecare săptămână suplimentară, luând în considerare factorii externi tumultuosi care au apărut sporadic pe parcursul întregii perioade de anchetă, cum ar fi factori precum instabilitatea politică, împușcăturile poliției și protestele.
Ingineria caracteristicilor
- Calculați vârsta respondenților la sondaj.
2. Creați o nouă caracteristică care surprinde atunci când o persoană nu a primit îngrijire medicală și nu a primit îngrijiri de sănătate mintală, dar are nevoie de ambele (1 = Adevărat, 0 = Fals). Am numit această nouă funcție UNMET_NEED_GROUP.
3. Variabilele noastre de predicție au inclus:
- 'VÂRSTĂ'
- „EEDUC” (realizări educaționale)
- „RRACE”
- „RHISPANIC” (Origine hispanică)
- „ANXIOS” (Frecvența anxietății în ultimele 7 zile)
- „WORRY” (Frecvența îngrijorării în ultimele 7 zile)
- „INTERES” (Frecvența de a avea un interes redus pentru lucruri în ultimele 7 zile)
- „JOS” (Frecvența sentimentului de depresie în ultimele 7 zile)
- „ÎNTÂRZIERE” (întârzierea îngrijirii medicale în ultimele 4 săptămâni din cauza pandemiei)
- VENIT (venitul total al gospodăriei înainte de impozitare.)
- WRKLOSS (gospodăria a înregistrat o pierdere a veniturilor din muncă începând cu 13 martie 2020)
- EXPCTLOSS (gospodăria va experimenta o pierdere a veniturilor din muncă în următoarele 4 săptămâni din cauza pandemiei de coronavirus)
- Și variabila noastră de răspuns este UNMET_NEED_GROUP pe care am creat-o.
Am folosit 70% din setul de date pentru instruire și 30% pentru testare. Am constatat că doar 6% dintre date au îndeplinitUNMET_NEED_GROUP (scorat 1) și, prin urmare, trebuia să rezolvăm datele noastre dezechilibrate.
Am făcut acest lucru prin supraeșantionarea grupului majoritar(UNMET_NEED_GROUP == 0), ceea ce ne-a permis să echilibrăm datele într-un mod sistematic prin reeșantionarea grupului minoritar(UNMET_NEED_GROUP ==1). Cadrul de date final arată astfel (Figura 13)

Modelare
Cu date echilibrate, implementăm apoi regresia logistică, reglam fin hiperparametrii utilizând GridSearchCV, C optim a fost 0,1, soluția liblinear și L1 Regularization și funcția de pierdere a entropiei încrucișate. Validarea încrucișată este, de asemenea, aplicată pentru a preveni supraadaptarea.
Modelul nostru final prezintă un scor de precizie pentru prezicerea evaluărilor din clasa 1 la 0,24, scorul de reamintire 0,90 și acuratețea la 0,82 (Figura 14).

Am vrut să maximizăm reamintirea deoarece, în acest scenariu, este mai puțin riscant să identificăm în mod fals indivizii ca având nevoi nesatisfăcute decât este să NU identificăm în mod fals pe cineva care are nevoi nesatisfăcute.
În cele din urmă, am dorit să comparăm eficiența modelului de regresie logistică cu un model de pădure aleatoare, deoarece pădurea aleatoare ar trebui să fie mai eficientă cu date dezechilibrate. Prin urmare, am antrenat din nou modelul original folosind datele de antrenament și am prezis variabila răspuns folosind Random Forest. (Figura 15.)

Aceasta a evaluat o precizie de 0,34 și o rechemare de 0,28, Random Forest a condus la o precizie mai mare de 0,92. Cu toate acestea, nu este ideal în acest caz specific, deoarece dorim să maximizăm scorul de reamintire. Prin urmare, am stabilit că regresia logistică servește ca practică de modelare mai eficientă pentru această evaluare.
Rezumatul rezultatelor
Am descoperit că următoarele populații au simptome mai mari de anxietate și depresie:
- Persoane cu vârste cuprinse între 18 și 29 de ani
- Persoane cu diplomă de liceu mai mică
- Oameni identificați ca non-hispanici, alte rase și mai multe rase.
De asemenea, am constatat că:
- Persoanele cu vârste cuprinse între 18 și 29 de ani au indicat că au nevoie de consiliere sau terapie la rate mai mari pe tot parcursul pandemiei și au avut rate mai mari de a fi neasigurate din punct de vedere medical.
- Persoanele care s-au identificat ca non-hispanici, alte rase și mai multe rase au avut cele mai mari rate de nevoi medicale nesatisfăcute pe tot parcursul pandemiei.
O descoperire interesantă pe care am întâlnit-o a fost:
Persoanele cu niște diplome de colegiu/asociat au fost cele care se confruntă cu cele mai înalte niveluri de nevoi medicale nesatisfăcute.
Acest lucru părea contra-intuitiv, deoarece am presupus că niveluri de educație mai scăzute, cum ar fi Mai puțin decât o diplomă de liceu sau diplomă de liceu sau GED, ar avea rate mai mari din cauza probabilității presupuse de a avea locuri de muncă mai puțin stabile.
În cele din urmă, am descoperit că am reușit să construim un model utilizând datele HPS americane pentru a prezice clasificarea unui individ ca vulnerabil (Clasa 1.) cu o acuratețe de 82% și o reamintire de 90% utilizând regresia logistică (Definirea persoanei vulnerabile ca persoană care are nevoie atât de îngrijire medicală, cât și de îngrijire de sănătate mintală, dar nu a primit nici una).
Discuție
Această activitate are implicații pentru profesioniștii din domeniul sănătății care își propun să îi ajute pe cei care nu primesc ajutorul de care au nevoie.
Credem că instituțiile medicale și guvernul ar putea beneficia de acordarea mai multă atenție acestor persoane pe baza modelului nostru de predicție, astfel încât:
- Instituțiile nu trebuie să treacă prin cantități mari de puncte de date pentru a-și da seama ce grup de oameni au nevoie de ajutor medical.
- Cu o acuratețe rezonabilă și un scor de reamintire (aproximativ 90%), persoana care prezintă anumite trăsături (fond rasial, nivel de educație, niveluri de venit, grupe de vârstă, niveluri de anxietate) va fi clasificată ca individ vulnerabil.
Cercetările ulterioare ar putea implica investigarea altor caracteristici care pot fi relevante pentru a ajuta la determinarea politicii care afectează persoanele vulnerabile, cum ar fi investigarea modului în care locuințele afectează nivelul de vulnerabilitate al unui individ în ceea ce privește sănătatea sau extinderea în continuare a definiției noastre operaționale a vulnerabilității.
Limitări
Acest studiu este limitat în procedura de colectare prin faptul că este părtinitoare față de persoanele cu acces la internet și, în plus, către persoanele cu acces la computere desktop sau laptop, deoarece persoanele sunt mai puțin probabil să completeze un chestionar lung de pe dispozitivele lor celulare, chiar dacă au fost invitaţi să facă acest lucru.
De asemenea, este limitat prin faptul că nu există o evaluare a condițiilor preexistente ale respondenților, cum ar fi dacă aceștia au experimentat anxietate, depresie, au avut nevoi medicale sau de sănătate mintală nesatisfăcute sau nu au asigurat de sănătate înainte de pandemie. Acest lucru face ca evaluarea oricăror asocieri cu pandemia COVID-19 în sine să fie dificilă.
Autori: Jackie Hu, Amanda Kochak
Referințe
Rachel Donnelly, Mateo P. Farina, Cum modelează politicile de stat experiențele legate de șocurile de venituri ale gospodăriilor și sănătatea mintală în timpul pandemiei de COVID-19?, Științe sociale și medicină,
Volumul 269, 2021, 113557, ISSN 0277–9536
https://doi.org/10.1016/j.socscimed.2020.113557
(https://www.sciencedirect.com/science/article/pii/S0277953620307760)
Fișierul de uz public al sondajului asupra pulsului de uz casnic (PUF), US Census Bureau
„https://www.census.gov/programs-surveys/household-pulse-survey/datasets.html”
Indicatori de anxietate sau depresie pe baza frecvenței raportate a simptomelor în ultimele 7 zile, Centrul Național de Statistică în Sănătate
„https://data.cdc.gov/NCHS/Indicators-of-Anxiety-or-Depression-Based-on-Repor/8pt5-q6wp”
Îngrijirea sănătății mintale în ultimele 4 săptămâni, Centrul Național de Statistică în Sănătate
„https://data.cdc.gov/NCHS/Mental-Health-Care-in-the-Last-4-Weeks/yni7-er2q”
Indicatori de acoperire a asigurărilor de sănătate la momentul interviului, Centrul Național de Statistică în Sănătate
„https://data.cdc.gov/NCHS/Indicators-of-Health-Insurance-Coverage-at-the-Tim/jb9g-gnvr”