Вопросы по теме 'pdf-parsing'
Извлечение содержимого таблицы из коллекции файлов PDF
У меня есть стопка PDF-файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но в любой из них МОЖЕТ быть одна или несколько таблиц с интересной информацией, которую я хотел бы собрать в отдельную базу данных.
Конечно, я...
60363 просмотров
schedule
15.01.2024
Как использовать CAM::PDF для извлечения всех страниц?
#!/perl/bin/perl -w
use CAM::PDF;
use CAM::PDF::PageText;
$filename = "test.pdf";
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(2);
$text = CAM::PDF::PageText->render($pageone_tree);
#$text =~...
1499 просмотров
schedule
07.02.2024
Можно использовать функцию-оболочку только один раз после определения, а затем получить NameError
Фон
Я использую pdfquery для удаления данных из PDF-файлов. Нравится этот . Этот вопрос основан на моем предыдущем вопросе здесь .
Мне удалось успешно использовать пользовательские функции-оболочки, которые могут принимать аргументы,...
66 просмотров
schedule
06.08.2022