Как преобразовать pdf в asciidoc с помощью pandoc?

Я пытаюсь преобразовать pdf-книгу в документ asciidoc. Я пробовал следующую команду:

pandoc -s s.pdf -t asciidoc -o example28.txt

У меня проблема "Неизвестный читатель".

q@q-ABRA-A5-V12-1:~/Downloads$ pandoc -s s.pdf -t asciidoc -o example28.txt
pandoc: Unknown reader: pdf
Pandoc can convert to PDF, but not from PDF.

Как я могу это исправить или есть другой способ конвертировать из pdf в asciidoc?


person my-lord    schedule 05.09.2018    source источник
comment
pandoc не читает PDF-файлы, а только создает их. но вы можете попробовать less s.pdf | pandoc -t asciidoc   -  person mb21    schedule 05.09.2018
comment
Когда я пробую эту команду, я получаю pandoc: Неизвестный читатель: простая ошибка.   -  person my-lord    schedule 05.09.2018
comment
ах да, вы оставляете -f, по умолчанию будет уценка ... но, вероятно, вам все равно нужен специальный инструмент. но stackoverflow, вероятно, не место, чтобы просить об этом. также зависит от вашей платформы/потребностей.   -  person mb21    schedule 05.09.2018
comment
См. также этот более общий вопрос: модуль Python для преобразования PDF в текст у которого есть еще много ответов.   -  person Paul Rougieux    schedule 08.06.2020


Ответы (1)


Вы пробовали pdf2txt? https://pypi.org/project/pdfminer/ Это один из инструментов, представленных там.

person tidel    schedule 05.09.2018
comment
похоже, переходит в HTML, а затем вы можете использовать pandoc для перехода от HTML к asciidoc: pdf2txt.py -t html input.pdf | pandoc -f html -t asciidoc - person mb21; 05.09.2018
comment
Большое спасибо. Я преобразовал pdf в asciidoc, но у меня возникла проблема с новой строкой, которая, вероятно, вызвала дополнительные блоки ‹br› в html. Как я могу решить эту проблему? От: i.imgur.com/QJ3Mx0n.png Кому:i.imgur.com/XoURhd9.png - person my-lord; 06.09.2018
comment
По состоянию на 2020 год PDFMiner активно не поддерживается. Это форк, поддерживаемый сообществом: pdfminer.six. - person Paul Rougieux; 08.06.2020