Это третья статья в нашей серии, в которой мы объясняем, как работает конвейер анализа документов в Qantev. Цель нашего конвейера анализа документов — автоматизировать извлечение информации из документов, полученных нашими страховыми клиентами.

В первой статье [Qantev OCR для медицинского страхования] мы описали наш алгоритм OCR, который может читать отсканированные документы на разных языках, таких как английский, французский, тайский и других! Во второй статье [Извлечение информации Qantev для медицинского страхования] мы описали наш алгоритм извлечения информации, который извлекает такую ​​информацию, как имя пациента, номер полиса, имя поставщика и все другие важные поля из документа предварительного утверждения медицинского страхования. Сегодня мы обсудим наш конвейер извлечения таблиц, который извлекает таблицы из отсканированных документов и создает CSV-файл.

Страховщики могут получать тысячи требований о возмещении в день, каждое из которых имеет по крайней мере одну таблицу, содержащую ключевую информацию о требовании. Одной из основных таблиц, которую необходимо извлечь, является таблица лечения, в которой собраны все процедуры, выполненные больницей во время пребывания участника.

Например, в случае перелома левой ноги все процедуры перечислены в таблице лечения, от первой консультации с врачом до операции, включая все использованные лекарства и оборудование.

Таблицы обработки могут быть большими, и обработчику требований необходимо заполнить все это вручную, чтобы расшифровать всю таблицу. Ради эффективности обработчики претензий часто расшифровывают только общее количество всех процедур и основную причину, по которой клиент предъявляет претензию, теряя большую часть другой ценной информации, представленной в этом документе.

Благодаря нашему конвейеру извлечения таблиц таблица лечения автоматически извлекается в формате таблицы csv, содержащей хорошо разделенные столбцы и строки. Ниже мы углубимся в наш конвейер, чтобы объяснить, как мы можем этого добиться.

Как извлечь таблицы из изображения в csv?

Чтобы объяснить наш алгоритм, давайте посмотрим на реальную ситуацию, с которой мы столкнулись в Qantev. Как упоминалось ранее, мы имеем дело в основном с таблицами лечения, которые содержат информацию обо всех процедурах, выполненных участником во время его пребывания в больнице. Обычно таблица процедур содержит такие поля, как Дата, Код, Описание, Количество, Сумма на единицу, Общая сумма… Ниже приведен пример анонимного изображения таблицы процедур:

Как вы понимаете, расшифровка этой таблицы вручную с нуля заняла бы очень много времени. В Qantev мы полностью автоматизируем это с помощью ИИ. На ранних этапах развертывания единственное, что нужно сделать обработчикам претензий, — это выбрать несколько случайных документов, чтобы проверить таблицу результатов на наличие несоответствий, применить изменения, а затем утвердить результат.

Для этого мы создали множество возможностей. Имея отсканированный документ, содержащий таблицу лечения, мы начинаем с определения местоположения таблицы. Мы достигаем этого с помощью собственной модели, аналогичной предварительно обученным алгоритмам с открытым исходным кодом, таким как CascadeTabNet [1] или TableNet [2], но с очень точной настройкой, которая позволяет очень хорошо работать с документами медицинского страхования.

Определив, где находится таблица, мы обрезаем изображение в таблице и применяем нашу модель OCR. Ниже вы можете увидеть результат нашего алгоритма:

Задача состоит в том, как правильно извлечь столбцы и строки!

На самом деле это очень сложная проблема, есть некоторые алгоритмы с открытым исходным кодом, такие как CascadeTabNet [1], которые пытаются использовать обнаружение объектов глубокого обучения для сегментации каждой ячейки, но в наших тестах его производительность недостаточна, даже с тонкой настройкой наших данных.

Хотя нам в Qantev нравится использовать методы глубокого обучения, мы сосредоточены на лучшем инструменте для работы. Поэтому мы выбрали традиционный подход компьютерного зрения, который использует плотность пикселей по осям для извлечения строк и столбцов. Это таблица csv, извлеченная из нашей модели:

Наши методы превзошли альтернативные подходы к глубокому обучению, будучи независимыми от шаблонов и намного быстрее. Наш метод не зависит от какого-либо шаблона и работает для различных структур таблиц, используя только некоторые методы предварительной обработки.

Заключение

В этой статье мы поделились обзором того, как работает конвейер Qantev для извлечения таблиц. Наши запатентованные методы продемонстрировали свою эффективность, помогая страховым компаниям по всему миру значительно сократить время, затрачиваемое их сотрудниками на выполнение ручных задач, а также повысить качество их данных!

Если вы еще не проверили их, взгляните на предыдущие статьи этой серии, где мы объясняли внутреннюю работу нашего OCR в этой первой части [Qantev OCR для медицинского страхования] и мы описали конвейер извлечения информации. мы используем для извлечения определенной информации из отсканированных документов [Извлечение информации Qantev для медицинского страхования].

[1] https://arxiv.org/pdf/2004.12629.pdf

[2] https://arxiv.org/pdf/2001.01469.pdf