У меня есть стопка PDF-файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но в любой из них МОЖЕТ быть одна или несколько таблиц с интересной информацией, которую я хотел бы собрать в отдельную базу данных.
Конечно, я знаю, что для этого нужно что-то написать. Perl - это вариант для меня - или, возможно, Java. Мне все равно, какой язык, если он бесплатный (или дешевый с бесплатным пробным периодом, чтобы убедиться, что он соответствует моим целям).
Я смотрю на CAM::Parse (используя клубничный Perl), но я не уверен, как его использовать для поиска и извлечения таблиц из файлов. Я предполагаю, что предпочитаю Perl, но на самом деле мне нужно что-то надежно работающее и достаточно простое для манипуляций со строками.
Каков хороший подход для чего-то подобного? Я на первом месте, поэтому, если у java (или python и т. д.) есть лучшие хуки, сейчас самое время узнать об этом. Общие указатели хорошие; стартовый код был бы настоятельно предпочтительнее.