как извлечь форматированное текстовое содержимое из PDF

Как я могу извлечь текстовое содержимое (не изображения) из PDF-файла, сохраняя при этом (примерно) стиль и макет, как Google Docs?

hoju 04.02.2010 источник

Ответы (6)

arrow_upward
10
arrow_downward

Чтобы извлечь текст из PDF и получить его позицию, вы можете использовать PDFMiner. PDFMiner также может экспортировать PDF прямо в HTML, сохраняя текст в нужном месте.

Я не знаю вашего варианта использования, но есть много проблем, с которыми вы можете столкнуться при этом, потому что PDF действительно ориентирован на представление, а не на контент, поток текста не является непрерывным. Итак, если вы хотите, чтобы текст редактировался, это будет непростой задачей.

Etienne 04.02.2010

comment

Этот пакет доступен в Ubuntu под именем python-pdfminer и командой pdf2txt. - naught101; 05.01.2015

arrow_upward
7
arrow_downward

Пробовали ли вы pyPDF или ReportLab библиотеки PDF? Я лично не использовал их, но вы можете попробовать их. здесь тоже полезно

ghostdog74 04.02.2010

arrow_upward
4
arrow_downward

В Xpdf есть утилита PDFtoText, которая отлично справляется со своей задачей. http://foolabs.com/xpdf/download.html

chrisfs 05.07.2011

arrow_upward
4
arrow_downward

Если вы хотите сделать это так же, как Google:

Google преобразует PDF в изображение, а затем накладывает на изображение, где раньше был текст, выделяемые области JavaScript (что похоже на магию вуду). Области кажутся текстовыми, когда вы прокручиваете их курсором, но это не так. Это может не помочь вам узнать, но так они это делают. Если вы хотите перепроектировать его, вы можете начать с https://www.mercurial-scm.org/ На домашней странице они делают то же самое с помощью JavaScript, чтобы текст можно было выделить и скопировать. Вы можете извлечь текст из PDF-файла и найти его местоположение на странице с одной из упомянутых библиотек в других ответах. Затем вы можете наложить извлеченное изображение файла с тем же стилем областей JavaScript.

orokusaki 04.02.2010

comment

ах, вы правы - они используют изображения, а это не то, что мне нужно, потому что мне нужно манипулировать текстом - hoju; 04.02.2010

arrow_upward
3
arrow_downward

Если вы не хотите делать это с помощью Python, Ghostscript может сделать это за вас. Проверьте pdf2ascii (скрипт, который поставляется с GS), чтобы получить простой текст. Стили более сложны, поскольку их можно указать несколькими способами.

Justin R. 04.02.2010

arrow_upward
3
arrow_downward

Acrobat Professional может сделать эту работу. В меню «Файл» выберите экспорт. Затем выберите Текст.

Shawn 24.10.2012

как извлечь форматированное текстовое содержимое из PDF

Ответы (6)

Похожие вопросы