fundal

În ultimul post, am adunat texte și le-am curățat pentru a elimina inconsecvența în utilizarea termenilor. Acum ajungem la pasul de a folosi biblioteca NLP pentru a analiza textul respectiv.



Abordare

4. Construiți grafic folosind propoziție

Un mic context despre procesarea limbajului natural (NLP).

Pentru a analiza textul, avem nevoie de modalități de a descompune propoziția (propozițiile) în bucăți care pot fi procedate de orice algoritm de învățare automată. Spre deosebire de datele tabelare, textul nu este variabil continuu și nu are o distribuție plăcută și netedă. Avem nevoie de o modalitate de a rezolva.

Cea mai comună abordare înainte de apariția arhitecturii deep learning/transformator este reprezentarea Bag of Words. Ideea este destul de simplă: numărați numărul de anumite cuvinte care au o putere diferențială semnificativă. Cea mai recentă tendință este aplicarea modelului de transformator complex pentru diverse sarcini, cum ar fi analiza sentimentelor, clasificarea textului, chatbot-uri și asistenți virtuali, extragerea textului, traducerea automată, rezumarea textului sau recunoașterea vorbirii. Dar nu asta vreau să fac aici. Accentul meu este pe extragerea relației/interacțiunii dintre diferite entități biomedicale. Cerința este diferită de sarcinile menționate mai sus.

Pentru a face acest lucru, folosesc puterea bibliotecii Stanza NLP pentru a efectua procesarea obișnuită a textului și a folosi rezultatul pentru construcția graficului. Urmează un scenariu în care pregătesc propoziția brută în acest scop.

Să presupunem că am următoarea propoziție exemplu.

'CDKN2A, also known as cyclin-dependent kinase inhibitor 2A, is a gene which in humans is located at chromosome 9, band p21.3.'

Dacă rulez o conductă standard de Stanza fără a colaziona jetoanele brute, va afișa ceva ca mai jos.

-------------- Tokens --------------
CDKN2A NOUN
, PUNCT
also ADV
known VERB
as ADP
cyclin NOUN
- PUNCT
dependent ADJ
kinase NOUN
inhibitor NOUN
2A NOUN
, PUNCT
is VERB
a DET
gene NOUN
which PRON
in ADP
humans NOUN
is AUX
located VERB
at ADP
chromosome NOUN
9 NUM
, PUNCT
band NOUN
p21.3 NOUN
. PUNCT
-------------- Entity --------------
CDKN2A
cyclin-dependent kinase inhibitor 2A
humans
chromosome 9

Veți observa că unele jetoane nu se coroborează cu entitățile extrase. Și acesta este motivul pentru care am nevoie de funcția de ajutor „spanner”.

Rularea unui alt script folosind funcția de ajutor „spanner” va da următoarele.

Veți observa că jetoanele se potrivesc cu entitățile biomedicale. Și următoarea ieșire indică, de asemenea, de ce simbol depinde jetonul curent. Acesta este rezultatul analizei dependenței care reflectă regulile gramaticale care guvernează construcția unei propoziții cu sens. [1]. Această dependență va fi folosită pentru a construi un grafic al propoziției.

---------------------------- Tokens ----------------------------
CDKN2A                                   is dependent on      known     
also                                     is dependent on      known     
known                                    is dependent on      p21.3     
as                                       is dependent on      gene      
cyclin-dependent kinase inhibitor 2A     is dependent on      gene      
is                                       is dependent on      gene      
a                                        is dependent on      gene      
gene                                     is dependent on      known     
which                                    is dependent on      located   
in                                       is dependent on      humans    
humans                                   is dependent on      located   
is                                       is dependent on      located   
located                                  is dependent on      gene      
at                                       is dependent on      p21.3     
chromosome 9                             is dependent on      band      
band                                     is dependent on      p21.3     
p21.3                                    is dependent on      located   
---------------------------- Entity ----------------------------
CDKN2A
cyclin-dependent kinase inhibitor 2A
humans

Pauză

Până acum am explicat cum să descompun o propoziție în componente care pot fi folosite pentru construirea unui grafic. În postarea următoare, voi explora cum să folosesc graficul pentru a extrage relația care este cheia înțelegerii interacțiunii dintre două entități biomedicale.

Rămâneţi aproape.

[1]: https://en.wikipedia.org/wiki/Dependency_grammar