Конкуренция: Генерация кода LaTeX из изображений таблиц

Для участия перейдите по ссылке: https://competitions.codalab.org/competitions/26979

Распознавание таблиц - хорошо изученная проблема в анализе документов, и было разработано множество академических и коммерческих подходов для распознавания таблиц в нескольких форматах документов, включая простой текст, отсканированные изображения страниц и цифровые объектно-ориентированные форматы, такие как PDF. Есть несколько работ, которые могут преобразовывать таблицы в текстовом формате PDF в структурированные представления. Однако работа по распознаванию содержимого таблиц на основе изображений ограничена.

Конкурс направлен на оценку способности современных методов распознавать научные таблицы. В частности, проблема будет разделена на две подзадачи:

Подзадача I: Реконструкция структуры таблицы (S): Реконструкция структуры таблицы в виде символов и кода LaTeX.
Подзадача II: Реконструкция содержимого таблицы ©: восстановление и распознавание содержимого таблицы в виде символов и кода LaTeX

Задания

Наша общая задача состоит из двух подзадач. Подзадача-1 и подзадача-2 сосредоточены на оценке производительности моделей машинного обучения в отношении двух более широких задач распознавания таблиц.

Подзадача I: реконструкция структуры таблицы

В этой подзадаче вам дается изображение таблицы и соответствующий ему код LaTeX. Вам необходимо создать структурные токены LaTeX, которые определяют таблицу в LaTeX.

Подзадача-II. Реконструкция содержимого таблицы

В этой подзадаче вам дается изображение таблицы и соответствующий ему код LaTeX. Вам необходимо создать токены содержимого LaTeX, которые принадлежат таблице в LaTeX.

Часто задаваемые вопросы

Q1. Каков размер набора данных с конкретными числами для каждой задачи (обучающий набор - тест - набор для проверки)?

A1. Размер набора данных для обеих подзадач представлен следующим образом:

Мы сокращаем набор данных задачи реконструкции структуры таблицы как TSRD, а набор данных задачи реконструкции содержимого таблицы как TCRD.

Для набора данных TSR мы берем таблицы, содержащие менее 250 токенов, а для набора данных TCR мы берем таблицы, содержащие менее 500 токенов.

Q2. Будет ли код участников конкурса доступен исследовательскому сообществу (воспроизводимость результатов)?

A2. Участники должны будут сделать свой код доступным для воспроизводимости. Набор данных, предоставленный для этой задачи, будет лицензироваться по международной лицензии CC BY-NC-SA 4.0, а оценочный сценарий будет предоставляться по лицензии MIT.

Q3. Будет ли вручена награда за все предложенные Задачи?

A3. Мы будем награждать обе предложенные подзадачи:

Задача реконструкции структуры таблицы
Задача реконструкции содержимого таблицы

Q4. Какие примеры для двух задач?

A4. Примеры:

Реконструкция структуры таблицы:

{| c c | } \\ hline \\ multicolumn {2} {| c | } ЯЧЕЙКА \\\\ \\ hline \\ multicolumn {2} {| c | } ЯЧЕЙКА \\\\ \\ мультиколонка {2} {| c | } ЯЧЕЙКА \\\\ \\ мультиколонка {2} {| c | } ЯЧЕЙКА \\\\ \\ мультиколонка {2} {| c | } ЯЧЕЙКА \\\\ \\ мультиколонка {2} {| c | } ЯЧЕЙКА \\\\ \\ hline

Реконструкция содержимого таблицы:

$ T _ {\ mathbf {D} 1} = p _ {1 1 ¦} \ frac {t _ {\ mathbf {A}} + \ mathbf {p} - \ frac {\ mathbf {r}} {2} } {2 t ¦ _ {\ mathbf {D}}} + p _ {1 2 ¦} \ frac {t _ {\ mathbf {D}} + \ mathbf {p - d - r}} {2 t ¦ _ {\ mathbf {D}}} + $ \\ $ p _ {1 3 ¦} \ frac {t _ {\ mathbf {A}} + t _ {\ mathbf {D}} - 2 \ mathbf {r + p - d}} {4 t ¦ _ {\ mathbf {D}}}. $

Лента новостей:

Период регистрации: с 15 октября 2020 г. по 28 февраля 2021 г.
Выпуск набора для обучения и проверки: 20 октября 2020 г.
Выпуск тестового набора: 01 марта 2021 г.
Крайний срок подачи заявок: 31 марта 2021 г.
Этап постоценки начинается: 1 апреля 2021 г.

Оценка

Для обеих подзадач участники должны будут предоставить файлы прогнозов в соответствии с форматом представления.

Задачи будут оцениваться по критериям «Точность точного совпадения» и «Точность точного совпадения при 95% сходстве» в качестве общих показателей оценки.

Кроме того, метрики для конкретных задач включают:

Точность предсказания строки и точность предсказания столбца для задачи реконструкции структуры таблицы
Буквенно-цифровые символы Точность предсказания, Точность токена LaTeX, Точность символа LaTex и Точность предсказания символов, отличных от LaTeX, для задачи реконструкции содержимого таблицы

Описание каждой метрики следующее:

Точность точного совпадения: часть прогнозов, которые в точности совпадают с основной истиной.
Точность точного совпадения при 95% сходстве: доля прогнозов с достоверностью не менее 95% совпадения.
Точность прогнозирования строк: доля прогнозов, в которых количество строк равно количеству строк в основной истине.
Точность прогноза столбца: доля прогнозов с количеством токенов выравнивания ячеек ("c", "r", "l"), равная количеству токенов выравнивания ячеек в основной истине.
Точность предсказания буквенно-цифровых символов: часть предсказаний, содержащая те же буквенно-цифровые символы, что и в основной истине.
Точность токена LaTeX: часть прогнозов, в которой используются те же токены LaTeX, что и в наземной истине.
Точность символа LaTeX: часть прогнозов, которая имеет те же символы LaTeX, что и в основной истине.
Точность предсказания символа, отличного от LaTeX: часть предсказаний, в которой используются те же символы, не относящиеся к LaTeX, что и в основной истине.

Пример:

Для данного изображения, чтобы вычислить точность совпадения при 95% сходстве между целевой последовательностью наземной истинности и предсказанной целевой последовательностью, мы используем алгоритм самой длинной общей подпоследовательности, чтобы найти процент сходства и установить минимальный порог процентного сходства на 95%.

Базовая целевая последовательность (G) для задачи распознавания структуры таблицы - {c | ccc} & \ milticolumn {3} {c} \\ & & & \\ \ hline \ hline & & \\ & & & \\ \ hline \ multicolumn {3} {c} (Кол-во токенов = 37)

а прогнозируемая целевая последовательность (P) равна {c | cc} & \ milticolumn {2} {c} \\ & & & \\ \ hline \ hline & & \\ & & & \\ \ hline \ multicolumn {3} {c} (Кол-во токенов = 36)

Самая длинная общая подпоследовательность между G и P - } {c} \\ & & & \\ \ hline \ hline & & \\ & & & \\ \ hline \ multicolumn {3} {c} .

Таким образом, вычисленное процентное сходство составляет 70,27% (26 / 0,37).

Пожалуйста, отправляйте свои запросы в виде комментариев.

Конкуренция: Генерация кода LaTeX из изображений таблиц

Задания

Часто задаваемые вопросы

Лента новостей:

Оценка

Похожие вопросы