Pytesseract не загрузился из-за невозможности найти тессеракт

При попытке установить и использовать tesseract в Windows 10 с помощью python с помощью pytesseract я получаю сообщение об ошибке:

  File "C:\ProgramData\Anaconda3\lib\site-packages\pytesseract\pytesseract.py", line 194, in run_tesseract
    raise TesseractError(status_code, get_errors(error_string))

TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

Я пробовал переустановить тессеракт. Я установил C: \ Program Files (x86) \ Tesseract-OCR для переменных окружения PATH. Я добавил TESSDATA_PREFIX в C: \ Program Files (x86) \ Tesseract-OCR \ tessdata. Я убедился, что когда я набираю 'tesseract' в CMD работает

Код, который я использую:

import cv2
import pytesseract


# Uncomment the line below to provide path to tesseract manually
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

# Define config parameters.
# '-l eng'  for using the English language
# '--oem 1' for using LSTM OCR Engine
config = ('-l eng --oem 1 --psm 3')

# Read image from disk
im = cv2.imread("Serie1/NL83LHL9.JPG", cv2.IMREAD_COLOR)

# Run tesseract OCR on image
text = pytesseract.image_to_string(im, config=config)
# Print recognized text
print(text)

Полученные результаты:

CMD> tesseract: показывает интерфейс tesseract


person tretron    schedule 27.03.2019    source источник
comment
Действительно, это выглядит немного странно. Вы можете попробовать добавить в конфигурацию путь tessdata - config = r'--tessdata-dir "C:\Program Files (x86)\Tesseract-OCR\tessdata" -l eng --oem 1 --psm 3'   -  person Dmitrii Z.    schedule 28.03.2019
comment
Рискуя показаться неопытным: в какой из многих файлов конфигурации я должен добавить это?   -  person tretron    schedule 28.03.2019
comment
У вас есть строка config = ('-l eng --oem 1 --psm 3'). Замени его на тот, который я предложил.   -  person Dmitrii Z.    schedule 28.03.2019
comment
Это сработало! Спасибо большое за вашу помощь.   -  person tretron    schedule 29.03.2019


Ответы (2)


Если у вас нет исполняемого файла tesseract в вашем PATH, включите следующее:

 pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files (x86)/Tesseract-OCR/tesseract'
person pranita    schedule 01.04.2019
comment
Это 6-я строка кода, который я опубликовал с проблемой. проблему решил Дмитрий З. корыто - person tretron; 29.04.2019

решено Дмитрием З.

Действительно, это выглядит немного странно. Вы можете попробовать добавить в конфигурацию путь tessdata - config = r'--tessdata-dir "C:\Program Files (x86)\Tesseract-OCR\tessdata" -l eng --oem 1 --psm 3'

person tretron    schedule 29.04.2019