Вопросы по теме 'pdf-parsing'

Извлечение содержимого таблицы из коллекции файлов PDF
У меня есть стопка PDF-файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но в любой из них МОЖЕТ быть одна или несколько таблиц с интересной информацией, которую я хотел бы собрать в отдельную базу данных. Конечно, я...
60363 просмотров
schedule 15.01.2024

Как использовать CAM::PDF для извлечения всех страниц?
#!/perl/bin/perl -w use CAM::PDF; use CAM::PDF::PageText; $filename = "test.pdf"; my $pdf = CAM::PDF->new($filename); my $pageone_tree = $pdf->getPageContentTree(2); $text = CAM::PDF::PageText->render($pageone_tree); #$text =~...
1499 просмотров
schedule 07.02.2024

Можно использовать функцию-оболочку только один раз после определения, а затем получить NameError
Фон Я использую pdfquery для удаления данных из PDF-файлов. Нравится этот . Этот вопрос основан на моем предыдущем вопросе здесь . Мне удалось успешно использовать пользовательские функции-оболочки, которые могут принимать аргументы,...
66 просмотров