1. O'zgartirilgan avtoregressiv ketma-ketlik modellari bilan sahna matnini aniqlash(arXiv)

Muallif:Darvin Bautista, Rovel Atienza

Axborot :Kontekstdan xabardor STR usullari odatda ichki avtoregressiv (AR) til modellaridan (LM) foydalanadi. AR modellarining o'ziga xos cheklovlari tashqi LMni qo'llaydigan ikki bosqichli usullarni qo'zg'atdi. Kirish tasviridagi tashqi LMning shartli mustaqilligi uning to'g'ri bashoratlarni noto'g'ri tuzatishga olib kelishi mumkin, bu esa sezilarli samarasizlikka olib keladi. Bizning usulimiz, PARSeq, Permutation Language Modeling yordamida umumiy og'irliklarga ega ichki AR LM ansamblini o'rganadi. U kontekstsiz AR bo'lmagan va kontekstdan xabardor AR xulosasini va ikki tomonlama kontekstdan foydalangan holda iterativ takomillashtirishni birlashtiradi. Sintetik ta'lim ma'lumotlaridan foydalangan holda, PARSeq STR benchmarklarida (91,9% aniqlik) va yanada murakkab ma'lumotlar to'plamlarida eng zamonaviy (SOTA) natijalarga erishadi. Haqiqiy ma'lumotlarga o'rgatilganda yangi SOTA natijalarini (96,0% aniqlik) o'rnatadi. PARSeq aniqlik va parametrlar soni, FLOPS va kechikish bo'yicha optimaldir, chunki uning sodda, birlashtirilgan tuzilishi va tokenlarni parallel qayta ishlash. Diqqatning keng qo'llanilishi tufayli u haqiqiy dunyo tasvirlarida keng tarqalgan o'zboshimchalik bilan yo'naltirilgan matnda mustahkamdir. Kod, oldindan tayyorlangan og'irliklar va ma'lumotlar quyidagi manzilda mavjud: "https://github.com/baudm/parseq"

2.SVTR: Yagona vizual model yordamida sahna matnini aniqlash(arXiv)

Muallif: "Yongkun Du", "Zhineng Chen", "Caiyan Jia", "Xiaoting Yin", "Tianlun Zheng", "Chenxia Li", "Yuning Du", "Yu-Gang Jiang"

Xulosa :Hukmron sahna matnini aniqlash modellari odatda ikkita qurilish blokini o'z ichiga oladi, xususiyatlarni ajratib olish uchun vizual model va matn transkripsiyasi uchun ketma-ketlik modeli. Ushbu gibrid arxitektura, garchi aniq bo'lsa-da, murakkab va unchalik samarali emas. Ushbu tadqiqotda biz ketma-ket modellashtirishdan butunlay voz kechadigan yamoqli tasvir tokenizatsiyasi doirasida sahna matnini aniqlash uchun yagona vizual modelni taklif qilamiz. SVTR deb ataladigan usul birinchi navbatda tasvir matnini belgilar komponentlari deb nomlangan kichik yamoqlarga ajratadi. Keyinchalik, ierarxik bosqichlar muntazam ravishda komponentlar darajasida aralashtirish, birlashtirish va / yoki birlashtirish orqali amalga oshiriladi. Global va mahalliy aralashtirish bloklari xarakterlararo va xarakter ichidagi naqshlarni idrok etish uchun ishlab chiqilgan bo'lib, ko'p donali xarakter komponentlarini idrok etishga olib keladi. Shunday qilib, belgilar oddiy chiziqli bashorat bilan tan olinadi. Ingliz va xitoy tillarida sahna matnini aniqlash vazifalari bo‘yicha eksperimental natijalar SVTR samaradorligini ko‘rsatadi. SVTR-L (Large) ingliz tilida yuqori raqobatbardosh aniqlikka erishadi va xitoy tilida mavjud usullardan katta farq bilan oshib ketadi, shu bilan birga tezroq ishlaydi. Bundan tashqari, SVTR-T (Tiny) samarali va ancha kichikroq model bo'lib, xulosa chiqarishda jozibali tezlikni ko'rsatadi. Kod hamma uchun “https://github.com/PaddlePaddle/PaddleOCR” manzilida mavjud.

3.IterVM: Sahna matnini aniqlash uchun takroriy koʻrishni modellashtirish moduli(arXiv)

Muallif :Xiaojie Chu, Yongtao Vang

Mavhum : Sahna matnini aniqlash (STR) tabiiy tasvirlardagi tasvir sharoitlarining nomukammalligi tufayli qiyin muammo hisoblanadi. Zamonaviy usullar ushbu qiyin muammoni hal qilish uchun vizual belgilar va lingvistik bilimlardan foydalanadi. Xususan, ular vizual modellashtirish modulidan (VM) chiqish ketma-ketligini qayta-qayta takomillashtirish uchun iterativ tilni modellashtirish modulini (IterLM) taklif qiladilar. Garchi istiqbolli natijalarga erishgan bo'lsa-da, ko'rishni modellashtirish moduli ushbu usullarning ishlashidagi qiyinchilikka aylandi. Ushbu maqolada biz STR aniqligini yanada yaxshilash uchun iterativ ko'rishni modellashtirish modulini (IterVM) yangi taklif qilamiz. Xususan, birinchi VM kirish tasviridan to‘g‘ridan-to‘g‘ri ko‘p darajali xususiyatlarni chiqaradi va keyingi VMlar kirish tasviridan ko‘p darajali xususiyatlarni qayta chiqaradi va ularni yuqori darajali (ya’ni, eng semantik) xususiyat bilan birlashtiradi. oldingi VM. Taklif etilgan IterVM-ni iterativ tilni modellashtirish moduli bilan birlashtirib, biz yana IterNet deb nomlangan kuchli sahna matnini tanuvchini taklif qilamiz. Keng ko'lamli tajribalar shuni ko'rsatadiki, taklif etilayotgan IterVM sahna matnini aniqlashning aniqligini, ayniqsa past sifatli sahna matnli tasvirlarida sezilarli darajada yaxshilashi mumkin. Bundan tashqari, tavsiya etilgan sahna matnini tanuvchi IterNet bir nechta ommaviy mezonlarda yangi eng zamonaviy natijalarga erishadi. Kodlar "https://github.com/VDIGPKU/IterNet" da mavjud bo'ladi.