1. Rozpoznawanie tekstu sceny za pomocą permutowanych modeli sekwencji autoregresyjnych(arXiv)

Autor: Darwin Bautista, Rowel Atienza

Streszczenie:Oparte na kontekście metody STR zazwyczaj wykorzystują wewnętrzne modele języka autoregresyjnego (AR) (LM). Nieodłączne ograniczenia modeli AR motywowały metody dwuetapowe, które wykorzystują zewnętrzną LM. Warunkowa niezależność zewnętrznego LM od obrazu wejściowego może spowodować, że będzie on błędnie korygował prawidłowe przewidywania, co prowadzi do znacznych nieefektywności. Nasza metoda, PARSeq, uczy się zestawu wewnętrznych AR LM o wspólnych wagach przy użyciu modelowania języka permutacji. Jednoczy bezkontekstowe wnioskowanie AR i kontekstowe wnioskowanie AR oraz iteracyjne udoskonalanie przy użyciu kontekstu dwukierunkowego. Wykorzystując syntetyczne dane szkoleniowe, PARSeq osiąga najnowocześniejsze wyniki (SOTA) w testach porównawczych STR (dokładność 91,9%) i bardziej wymagających zestawach danych. Ustanawia nowe wyniki SOTA (dokładność 96,0%) po szkoleniu na rzeczywistych danych. PARSeq jest optymalny pod względem dokładności w stosunku do liczby parametrów, FLOPS i opóźnień ze względu na prostą, ujednoliconą strukturę i równoległe przetwarzanie tokenów. Ze względu na szerokie wykorzystanie uwagi jest odporny na tekst o dowolnej orientacji, który jest powszechny w obrazach świata rzeczywistego. Kod, wstępnie wytrenowane wagi i dane są dostępne pod adresem: https://github.com/baudm/parseq

2.SVTR: Rozpoznawanie tekstu sceny za pomocą pojedynczego modelu wizualnego(arXiv)

Autor: Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang

Streszczenie:Modele rozpoznawania tekstu sceny dominującej zwykle składają się z dwóch elementów: modelu wizualnego do ekstrakcji cech i modelu sekwencyjnego do transkrypcji tekstu. Ta architektura hybrydowa, choć dokładna, jest złożona i mniej wydajna. W tym badaniu proponujemy model pojedynczego wizualizacji do rozpoznawania tekstu sceny w ramach struktury tokenizacji obrazu opartej na fragmentach, który całkowicie rezygnuje z modelowania sekwencyjnego. Metoda ta, zwana SVTR, najpierw rozkłada tekst obrazu na małe fragmenty zwane składnikami znakowymi. Następnie cyklicznie przeprowadzane są etapy hierarchiczne poprzez mieszanie, łączenie i/lub łączenie na poziomie komponentów. Opracowano globalne i lokalne bloki mieszające, aby dostrzec wzorce międzyznakowe i wewnątrzznakowe, co prowadzi do wieloziarnistego postrzegania komponentów charakteru. Zatem znaki są rozpoznawane na podstawie prostego przewidywania liniowego. Wyniki eksperymentów dotyczących zadań rozpoznawania tekstu w języku angielskim i chińskim pokazują skuteczność SVTR. SVTR-L (duży) osiąga wysoce konkurencyjną dokładność w języku angielskim i znacznie przewyższa istniejące metody w języku chińskim, a jednocześnie działa szybciej. Ponadto SVTR-T (Tiny) jest skutecznym i znacznie mniejszym modelem, który charakteryzuje się imponującą szybkością wnioskowania. Kod jest publicznie dostępny pod adresem https://github.com/PaddlePaddle/PaddleOCR.

3.IterVM: Moduł iteracyjnego modelowania obrazu do rozpoznawania tekstu sceny(arXiv)

Autor: Xiaojie Chu, Yongtao Wang

Streszczenie: Rozpoznawanie tekstu sceny (STR) stanowi trudny problem ze względu na niedoskonałe warunki obrazowania w obrazach naturalnych. Aby uporać się z tym trudnym problemem, najnowocześniejsze metody wykorzystują zarówno wskazówki wizualne, jak i wiedzę językową. W szczególności proponują moduł iteracyjnego modelowania języka (IterLM), aby wielokrotnie udoskonalać sekwencję wyjściową z modułu modelowania wizualnego (VM). Moduł modelowania wizji, choć osiągał obiecujące wyniki, stał się wąskim gardłem wydajności tych metod. W tym artykule nowo proponujemy moduł iteracyjnego modelowania widzenia (IterVM), aby jeszcze bardziej poprawić dokładność STR. W szczególności pierwsza maszyna wirtualna bezpośrednio wyodrębnia funkcje wielopoziomowe z obrazu wejściowego, a kolejne maszyny wirtualne ponownie wyodrębniają funkcje wielopoziomowe z obrazu wejściowego i łączą je z cechą wysokiego poziomu (tj. najbardziej semantyczną) wyodrębnioną przez poprzednią maszynę wirtualną. Łącząc proponowany moduł IterVM z modułem iteracyjnego modelowania języka, proponujemy ponadto potężny moduł rozpoznawania tekstu sceny o nazwie IterNet. Szeroko zakrojone eksperymenty pokazują, że proponowana maszyna IterVM może znacznie poprawić dokładność rozpoznawania tekstu sceny, szczególnie w przypadku obrazów tekstowych sceny o niskiej jakości. Co więcej, proponowany moduł rozpoznawania tekstu sceny IterNet osiąga nowe, najnowocześniejsze wyniki w kilku publicznych testach porównawczych. Kody będą dostępne na stronie https://github.com/VDIGPKU/IterNet.