Fon

So'nggi postda men matnlarni to'pladim va atamalardan foydalanishdagi nomuvofiqlikni bartaraf etish uchun ularni tozaladim. Endi biz ushbu matnni tahlil qilish uchun NLP kutubxonasidan foydalanish bosqichiga keldik.



Yondashuv

4. Gap yordamida grafik tuzing

Tabiiy tilni qayta ishlash (NLP) haqida ozgina ma'lumot.

Matnni tahlil qilish uchun bizga jumla(lar)ni har qanday mashinani o'rganish algoritmi tomonidan davom ettirilishi mumkin bo'lgan qismlarga ajratish usullari kerak. Jadval ma'lumotlaridan farqli o'laroq, matn doimiy o'zgaruvchan emas va chiroyli va silliq taqsimotga ega emas. Bizga qandaydir tarzda ishlash kerak.

Chuqur o'rganish/transformator arxitekturasining yuksalishidan oldin eng keng tarqalgan yondashuv So'zlar sumkasi tasviridir. G'oya juda oddiy: muhim farqlash kuchiga ega bo'lgan alohida so'z(lar) sonini hisoblang. So'nggi tendentsiya hissiyotlarni tahlil qilish, matnni tasniflash, chatbotlar va virtual yordamchilar, matnni chiqarish, mashina tarjimasi, matnni umumlashtirish yoki nutqni aniqlash kabi turli vazifalarga murakkab transformator modelini qo'llashdir. Lekin men bu erda qilmoqchi bo'lgan narsa emas. Mening e'tiborim turli xil biotibbiyot ob'ektlari o'rtasidagi munosabatlar/o'zaro ta'sirni aniqlashga qaratilgan. Talab yuqorida aytib o'tilgan vazifalardan farq qiladi.

Buni amalga oshirish uchun men Stanza NLP kutubxonasining kuchidan foydalanib, matnga odatiy ishlov berishni amalga oshiraman va natijadan grafik yaratish uchun foydalanaman. Quyida men shu maqsadda xom jumlani tayyorlaydigan skript bor.

Faraz qilaylik, menda quyidagi namunaviy jumla bor.

'CDKN2A, also known as cyclin-dependent kinase inhibitor 2A, is a gene which in humans is located at chromosome 9, band p21.3.'

Agar men standart Stanza quvur liniyasini xom tokenlarni birlashtirmasdan ishlatsam, u quyidagi kabi chiqadi.

-------------- Tokens --------------
CDKN2A NOUN
, PUNCT
also ADV
known VERB
as ADP
cyclin NOUN
- PUNCT
dependent ADJ
kinase NOUN
inhibitor NOUN
2A NOUN
, PUNCT
is VERB
a DET
gene NOUN
which PRON
in ADP
humans NOUN
is AUX
located VERB
at ADP
chromosome NOUN
9 NUM
, PUNCT
band NOUN
p21.3 NOUN
. PUNCT
-------------- Entity --------------
CDKN2A
cyclin-dependent kinase inhibitor 2A
humans
chromosome 9

Ba'zi tokenlar olingan ob'ektlar bilan tasdiqlanmasligini sezasiz. Va shuning uchun menga ‘kalit kaliti’ yordamchi funksiyasi kerak.

spanner’ yordamchi funksiyasi yordamida boshqa skriptni ishga tushirish quyidagini beradi.

Tokenlar biomedikal ob'ektlarga mos kelishini sezasiz. Va keyingi chiqish joriy token qaysi tokenga bog'liqligini ham ko'rsatadi. Bu mazmunli gapning tuzilishini tartibga soluvchi grammatik qoidalarni aks ettiruvchi tobelikni tahlil qilish natijasidir. [1]. Ushbu bog'liqlik jumlaning grafigini qurish uchun ishlatiladi.

---------------------------- Tokens ----------------------------
CDKN2A                                   is dependent on      known     
also                                     is dependent on      known     
known                                    is dependent on      p21.3     
as                                       is dependent on      gene      
cyclin-dependent kinase inhibitor 2A     is dependent on      gene      
is                                       is dependent on      gene      
a                                        is dependent on      gene      
gene                                     is dependent on      known     
which                                    is dependent on      located   
in                                       is dependent on      humans    
humans                                   is dependent on      located   
is                                       is dependent on      located   
located                                  is dependent on      gene      
at                                       is dependent on      p21.3     
chromosome 9                             is dependent on      band      
band                                     is dependent on      p21.3     
p21.3                                    is dependent on      located   
---------------------------- Entity ----------------------------
CDKN2A
cyclin-dependent kinase inhibitor 2A
humans

Tanaffus

Hozirgacha men jumlani grafik tuzish uchun ishlatilishi mumkin bo'lgan tarkibiy qismlarga qanday ajratishni ko'rib chiqdim. Keyingi postda men ikkita biotibbiyot ob'ekti o'rtasidagi o'zaro ta'sirni tushunish uchun kalit bo'lgan munosabatlarni olish uchun grafikdan qanday foydalanishni o'rganaman.

Yangiliklarni kuzatib boring, xabardor bo'lib boring; Biz bilan qoling.

[1]: https://en.wikipedia.org/wiki/Dependency_grammar