Научитесь извлекать текст из изображений в 3 строки кода

В этой короткой статье я покажу вам, как можно использовать возможности Python для извлечения текста из изображений. Применение этой техники безгранично. Вот некоторые примеры:

  • Интеллектуальный анализ данных для проектов машинного обучения (ML)
  • Фотосъемка чеков и чтение содержимого для обработки

Библиотека Python

Чтобы решить эту проблему, мы будем использовать библиотеку, известную как Python Tesseract. С сайта библиотеки:

Python-tesseract - это инструмент оптического распознавания символов (OCR) для Python. То есть он распознает и «прочитает» текст, встроенный в изображения.

Python-tesseract - это оболочка для Google Tesseract-OCR Engine. Он также полезен в качестве автономного сценария вызова для tesseract, поскольку он может читать все типы изображений, поддерживаемые библиотеками изображений Pillow и Leptonica, включая jpeg, png, gif, bmp, tiff и другие. Кроме того, при использовании в качестве сценария Python-tesseract будет печатать распознанный текст вместо того, чтобы записывать его в файл.

Настройка вещей

Когда доходит до настройки библиотек Python для использования, это обычно одноэтапный процесс. Однако с PyTesseract нам нужно будет сделать две вещи:

  1. Установите библиотеку Python
  2. Установите приложение Tesseract

Во-первых, чтобы установить библиотеку Python, просто откройте окно командной строки и введите:

pip install pytesseract

Затем перейдите на этот сайт, загрузите и установите исполняемый файл Tesseract OCR. На момент написания этой статьи я использовал 64-битную Alpha Build v5.0.0, скомпилированную 2020-03-28.

Нам нужно будет знать, где мы это установим, поскольку нам нужно будет сообщить об этом вашему скрипту python.

После того, как вы выполнили все вышеизложенное, вы готовы приступить к работе.

Код Python

Как и было обещано, с 3 строками кода вы сможете прочитать текст из картинки:

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract'
print(pytesseract.image_to_string(r'D:\examplepdf2image.png'))

Если вам понравилась статья выше, вам также могут понравиться: