Научитесь извлекать текст из изображений в 3 строки кода
В этой короткой статье я покажу вам, как можно использовать возможности Python для извлечения текста из изображений. Применение этой техники безгранично. Вот некоторые примеры:
- Интеллектуальный анализ данных для проектов машинного обучения (ML)
- Фотосъемка чеков и чтение содержимого для обработки
Библиотека Python
Чтобы решить эту проблему, мы будем использовать библиотеку, известную как Python Tesseract. С сайта библиотеки:
Python-tesseract - это инструмент оптического распознавания символов (OCR) для Python. То есть он распознает и «прочитает» текст, встроенный в изображения.
Python-tesseract - это оболочка для Google Tesseract-OCR Engine. Он также полезен в качестве автономного сценария вызова для tesseract, поскольку он может читать все типы изображений, поддерживаемые библиотеками изображений Pillow и Leptonica, включая jpeg, png, gif, bmp, tiff и другие. Кроме того, при использовании в качестве сценария Python-tesseract будет печатать распознанный текст вместо того, чтобы записывать его в файл.
Настройка вещей
Когда доходит до настройки библиотек Python для использования, это обычно одноэтапный процесс. Однако с PyTesseract нам нужно будет сделать две вещи:
- Установите библиотеку Python
- Установите приложение Tesseract
Во-первых, чтобы установить библиотеку Python, просто откройте окно командной строки и введите:
pip install pytesseract
Затем перейдите на этот сайт, загрузите и установите исполняемый файл Tesseract OCR. На момент написания этой статьи я использовал 64-битную Alpha Build v5.0.0, скомпилированную 2020-03-28.
Нам нужно будет знать, где мы это установим, поскольку нам нужно будет сообщить об этом вашему скрипту python.
После того, как вы выполнили все вышеизложенное, вы готовы приступить к работе.
Код Python
Как и было обещано, с 3 строками кода вы сможете прочитать текст из картинки:
import pytesseract pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract' print(pytesseract.image_to_string(r'D:\examplepdf2image.png'))
Если вам понравилась статья выше, вам также могут понравиться: