fundal
În ultimul post, am adunat texte și le-am curățat pentru a elimina inconsecvența în utilizarea termenilor. Acum ajungem la pasul de a folosi biblioteca NLP pentru a analiza textul respectiv.
Abordare
4. Construiți grafic folosind propoziție
Un mic context despre procesarea limbajului natural (NLP).
Pentru a analiza textul, avem nevoie de modalități de a descompune propoziția (propozițiile) în bucăți care pot fi procedate de orice algoritm de învățare automată. Spre deosebire de datele tabelare, textul nu este variabil continuu și nu are o distribuție plăcută și netedă. Avem nevoie de o modalitate de a rezolva.
Cea mai comună abordare înainte de apariția arhitecturii deep learning/transformator este reprezentarea Bag of Words. Ideea este destul de simplă: numărați numărul de anumite cuvinte care au o putere diferențială semnificativă. Cea mai recentă tendință este aplicarea modelului de transformator complex pentru diverse sarcini, cum ar fi analiza sentimentelor, clasificarea textului, chatbot-uri și asistenți virtuali, extragerea textului, traducerea automată, rezumarea textului sau recunoașterea vorbirii. Dar nu asta vreau să fac aici. Accentul meu este pe extragerea relației/interacțiunii dintre diferite entități biomedicale. Cerința este diferită de sarcinile menționate mai sus.
Pentru a face acest lucru, folosesc puterea bibliotecii Stanza NLP pentru a efectua procesarea obișnuită a textului și a folosi rezultatul pentru construcția graficului. Urmează un scenariu în care pregătesc propoziția brută în acest scop.
Să presupunem că am următoarea propoziție exemplu.
'CDKN2A, also known as cyclin-dependent kinase inhibitor 2A, is a gene which in humans is located at chromosome 9, band p21.3.'
Dacă rulez o conductă standard de Stanza fără a colaziona jetoanele brute, va afișa ceva ca mai jos.
-------------- Tokens -------------- CDKN2A NOUN , PUNCT also ADV known VERB as ADP cyclin NOUN - PUNCT dependent ADJ kinase NOUN inhibitor NOUN 2A NOUN , PUNCT is VERB a DET gene NOUN which PRON in ADP humans NOUN is AUX located VERB at ADP chromosome NOUN 9 NUM , PUNCT band NOUN p21.3 NOUN . PUNCT -------------- Entity -------------- CDKN2A cyclin-dependent kinase inhibitor 2A humans chromosome 9
Veți observa că unele jetoane nu se coroborează cu entitățile extrase. Și acesta este motivul pentru care am nevoie de funcția de ajutor „spanner”.
Rularea unui alt script folosind funcția de ajutor „spanner” va da următoarele.
Veți observa că jetoanele se potrivesc cu entitățile biomedicale. Și următoarea ieșire indică, de asemenea, de ce simbol depinde jetonul curent. Acesta este rezultatul analizei dependenței care reflectă regulile gramaticale care guvernează construcția unei propoziții cu sens. [1]. Această dependență va fi folosită pentru a construi un grafic al propoziției.
---------------------------- Tokens ---------------------------- CDKN2A is dependent on known also is dependent on known known is dependent on p21.3 as is dependent on gene cyclin-dependent kinase inhibitor 2A is dependent on gene is is dependent on gene a is dependent on gene gene is dependent on known which is dependent on located in is dependent on humans humans is dependent on located is is dependent on located located is dependent on gene at is dependent on p21.3 chromosome 9 is dependent on band band is dependent on p21.3 p21.3 is dependent on located ---------------------------- Entity ---------------------------- CDKN2A cyclin-dependent kinase inhibitor 2A humans
Pauză
Până acum am explicat cum să descompun o propoziție în componente care pot fi folosite pentru construirea unui grafic. În postarea următoare, voi explora cum să folosesc graficul pentru a extrage relația care este cheia înțelegerii interacțiunii dintre două entități biomedicale.
Rămâneţi aproape.