将数据从PDF刮到CSV? Python与PHP?

时间:2011-09-09 02:30:04

标签: php python pdf screen-scraping

我有一堆报告,我每天都在手工编译,而且它会永远消失,所以我在想整个过程的自动化。我将从以下数据中抓取数据:(1)HTML,(2)CSV / XLS,(3)PDF。我主要只使用PHP从CSV / HTML中删除数据,并想知道是否有任何可靠的库或方法从PHP中获取PDF中的表数据?

我刚刚开始学习Python,并且看到使用PDFMiner与Scrapy一起尝试这样做可能是一个好主意。这会更好吗?或者还有其他选择吗?

请告诉我。谢谢!

2 个答案:

答案 0 :(得分:3)

Beautiful Soup是抓取的另一个好方法,PDFminer是我找到的最好的Python解析器。我主要使用pdf2txt.py,然后根据需要从那里重新格式化。

答案 1 :(得分:2)

如果您对linux服务器有命令行访问权限,请尝试使用pdftotext命令

$ pdftotext file.pdf

如果你很幸运,你会得到一些你可以使用的东西。根据PDF的不同,根据我的经验,文本可能会从最初格式化表格的方式变得奇怪。祝你好运。

相关问题