Fon
So'nggi postda men matnlarni to'pladim va atamalardan foydalanishdagi nomuvofiqlikni bartaraf etish uchun ularni tozaladim. Endi biz ushbu matnni tahlil qilish uchun NLP kutubxonasidan foydalanish bosqichiga keldik.
Yondashuv
4. Gap yordamida grafik tuzing
Tabiiy tilni qayta ishlash (NLP) haqida ozgina ma'lumot.
Matnni tahlil qilish uchun bizga jumla(lar)ni har qanday mashinani o'rganish algoritmi tomonidan davom ettirilishi mumkin bo'lgan qismlarga ajratish usullari kerak. Jadval ma'lumotlaridan farqli o'laroq, matn doimiy o'zgaruvchan emas va chiroyli va silliq taqsimotga ega emas. Bizga qandaydir tarzda ishlash kerak.
Chuqur o'rganish/transformator arxitekturasining yuksalishidan oldin eng keng tarqalgan yondashuv So'zlar sumkasi tasviridir. G'oya juda oddiy: muhim farqlash kuchiga ega bo'lgan alohida so'z(lar) sonini hisoblang. So'nggi tendentsiya hissiyotlarni tahlil qilish, matnni tasniflash, chatbotlar va virtual yordamchilar, matnni chiqarish, mashina tarjimasi, matnni umumlashtirish yoki nutqni aniqlash kabi turli vazifalarga murakkab transformator modelini qo'llashdir. Lekin men bu erda qilmoqchi bo'lgan narsa emas. Mening e'tiborim turli xil biotibbiyot ob'ektlari o'rtasidagi munosabatlar/o'zaro ta'sirni aniqlashga qaratilgan. Talab yuqorida aytib o'tilgan vazifalardan farq qiladi.
Buni amalga oshirish uchun men Stanza NLP kutubxonasining kuchidan foydalanib, matnga odatiy ishlov berishni amalga oshiraman va natijadan grafik yaratish uchun foydalanaman. Quyida men shu maqsadda xom jumlani tayyorlaydigan skript bor.
Faraz qilaylik, menda quyidagi namunaviy jumla bor.
'CDKN2A, also known as cyclin-dependent kinase inhibitor 2A, is a gene which in humans is located at chromosome 9, band p21.3.'
Agar men standart Stanza quvur liniyasini xom tokenlarni birlashtirmasdan ishlatsam, u quyidagi kabi chiqadi.
-------------- Tokens -------------- CDKN2A NOUN , PUNCT also ADV known VERB as ADP cyclin NOUN - PUNCT dependent ADJ kinase NOUN inhibitor NOUN 2A NOUN , PUNCT is VERB a DET gene NOUN which PRON in ADP humans NOUN is AUX located VERB at ADP chromosome NOUN 9 NUM , PUNCT band NOUN p21.3 NOUN . PUNCT -------------- Entity -------------- CDKN2A cyclin-dependent kinase inhibitor 2A humans chromosome 9
Ba'zi tokenlar olingan ob'ektlar bilan tasdiqlanmasligini sezasiz. Va shuning uchun menga ‘kalit kaliti’ yordamchi funksiyasi kerak.
‘spanner’ yordamchi funksiyasi yordamida boshqa skriptni ishga tushirish quyidagini beradi.
Tokenlar biomedikal ob'ektlarga mos kelishini sezasiz. Va keyingi chiqish joriy token qaysi tokenga bog'liqligini ham ko'rsatadi. Bu mazmunli gapning tuzilishini tartibga soluvchi grammatik qoidalarni aks ettiruvchi tobelikni tahlil qilish natijasidir. [1]. Ushbu bog'liqlik jumlaning grafigini qurish uchun ishlatiladi.
---------------------------- Tokens ---------------------------- CDKN2A is dependent on known also is dependent on known known is dependent on p21.3 as is dependent on gene cyclin-dependent kinase inhibitor 2A is dependent on gene is is dependent on gene a is dependent on gene gene is dependent on known which is dependent on located in is dependent on humans humans is dependent on located is is dependent on located located is dependent on gene at is dependent on p21.3 chromosome 9 is dependent on band band is dependent on p21.3 p21.3 is dependent on located ---------------------------- Entity ---------------------------- CDKN2A cyclin-dependent kinase inhibitor 2A humans
Tanaffus
Hozirgacha men jumlani grafik tuzish uchun ishlatilishi mumkin bo'lgan tarkibiy qismlarga qanday ajratishni ko'rib chiqdim. Keyingi postda men ikkita biotibbiyot ob'ekti o'rtasidagi o'zaro ta'sirni tushunish uchun kalit bo'lgan munosabatlarni olish uchun grafikdan qanday foydalanishni o'rganaman.
Yangiliklarni kuzatib boring, xabardor bo'lib boring; Biz bilan qoling.