1. Recunoașterea textului scenei cu modele de secvențe autoregresive permutate(arXiv)

Autor :Darwin Bautista, Rowel Atienza

Rezumat:Metodele STR care țin seama de context utilizează de obicei modele de limbaj interne autoregresive (AR). Limitările inerente ale modelelor AR au motivat metode în două etape care utilizează un LM extern. Independența condiționată a LM-ului extern asupra imaginii de intrare poate face ca acesta să rectifice în mod eronat predicțiile corecte, ceea ce duce la ineficiențe semnificative. Metoda noastră, PARSeq, învață un ansamblu de AR LM interne cu ponderi comune folosind modelarea limbajului de permutare. Acesta unifică inferența AR fără context și conștient de context și rafinamentul iterativ folosind context bidirecțional. Folosind date de antrenament sintetice, PARSeq realizează rezultate de ultimă generație (SOTA) în benchmark-uri STR (precizie de 91,9%) și seturi de date mai provocatoare. Stabilește noi rezultate SOTA (precizie de 96,0%) atunci când este instruit pe date reale. PARSeq este optim în ceea ce privește acuratețea față de numărul de parametri, FLOPS și latența datorită structurii sale simple și unificate și procesării paralele a simbolurilor. Datorită utilizării extinse a atenției, este robust pe text orientat în mod arbitrar, care este obișnuit în imaginile din lumea reală. Codul, greutățile preantrenate și datele sunt disponibile la: https://github.com/baudm/parseq

2.SVTR: recunoașterea textului scenei cu un singur model vizual(arXiv)

Autor: Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang

Rezumat :Modelele de recunoaștere a textului scenei dominante conțin în mod obișnuit două blocuri de construcție, un model vizual pentru extragerea caracteristicilor și un model de secvență pentru transcrierea textului. Această arhitectură hibridă, deși precisă, este complexă și mai puțin eficientă. În acest studiu, propunem un model vizual unic pentru recunoașterea textului scenei în cadrul de tokenizare a imaginii pe patch-wise, care renunță în întregime la modelarea secvențială. Metoda, denumită SVTR, descompune mai întâi un text de imagine în mici patch-uri numite componente de caractere. Ulterior, etapele ierarhice sunt efectuate în mod recurent prin amestecare, îmbinare și/sau combinare la nivel de componente. Blocurile de amestecare globale și locale sunt concepute pentru a percepe modelele inter-caracter și intra-caracter, ceea ce duce la o percepție a componentei caracterului cu mai multe granule. Astfel, caracterele sunt recunoscute printr-o predicție liniară simplă. Rezultatele experimentale la sarcinile de recunoaștere a textului scenei în engleză și chineză demonstrează eficacitatea SVTR. SVTR-L (Large) realizează o acuratețe extrem de competitivă în limba engleză și depășește metodele existente cu o marjă mare în chineză, în timp ce rulează mai rapid. În plus, SVTR-T (Tiny) este un model eficient și mult mai mic, care arată o viteză atrăgătoare la inferență. Codul este disponibil public la https://github.com/PaddlePaddle/PaddleOCR.

3.IterVM: Modul de modelare iterativă a vederii pentru recunoașterea textului scenei(arXiv)

Autor:Xiaojie Chu, Yongtao Wang

Rezumat: recunoașterea textului scenei (STR) este o problemă dificilă din cauza condițiilor de imagini imperfecte din imaginile naturale. Metodele de ultimă generație utilizează atât indiciile vizuale, cât și cunoștințele lingvistice pentru a aborda această problemă provocatoare. Mai exact, ei propun modul de modelare a limbajului iterativ (IterLM) pentru a rafina în mod repetat secvența de ieșire din modulul de modelare vizuală (VM). Deși a obținut rezultate promițătoare, modulul de modelare a vederii a devenit blocajul de performanță al acestor metode. În această lucrare, propunem nou modulul de modelare iterativă a vederii (IterVM) pentru a îmbunătăți și mai mult acuratețea STR. Mai exact, primul VM extrage direct caracteristici pe mai multe niveluri din imaginea de intrare, iar următoarele VM reextrag caracteristicile pe mai multe niveluri din imaginea de intrare și le fuzionează cu caracteristica de nivel înalt (adică cea mai semantică) extrasă de VM-ul precedent. Combinând IterVM propus cu modulul de modelare iterativă a limbajului, propunem în continuare un puternic instrument de recunoaștere a textului scenei numit IterNet. Experimente ample demonstrează că IterVM propus poate îmbunătăți în mod semnificativ acuratețea recunoașterii textului scenei, în special în cazul imaginilor textului scenei de calitate scăzută. Mai mult, instrumentul de recunoaștere a textului de scenă propus IterNet obține rezultate noi de ultimă generație pe mai multe repere publice. Codurile vor fi disponibile la https://github.com/VDIGPKU/IterNet.