高级PDF使用Python解析(提取没有表格的文本等):什么是最佳库?

时间:2009-12-04 17:28:30

标签: python pdf parsing text-extraction information-extraction

我正在寻找一个PDF库,它允许我从PDF文档中提取文本。我看过PyPDF,这可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取。这可能会有问题,因为它会产生一些无用的文本部分并且看起来很乱(例如,大量的数字混在一起)。

我正在寻找更高级的东西。我想从PDF文档中提取文本,排除任何表格和特殊格式。那里有图书馆吗?或者我是否被迫对输出文本进行一些后处理以摆脱这些部分?

2 个答案:

答案 0 :(得分:56)

您还可以查看PDFMiner,这是Python中的其他PDF解析器。

您感兴趣的PDFMiner的特殊之处在于您可以控制在进行提取时重新组合文本部分的方式。你可以通过指定行,单词,字符等之间的空格来做到这一点。因此,也许通过tweeking你可以实现你想要的(这取决于你的文档的可变性)。 PDFMiner还可以为您提供页面中文本的位置,它可以通过Object ID和其他内容提取数据。所以挖掘PDFMiner并发挥创意!

但是你的问题真的不容易解决,因为在PDF中,文本不是连续的,而是由绝对位于页面中的许多小字符组构成的。 PDF的重点是保持布局完好无损。它不是面向内容的,而是面向演示的。

答案 1 :(得分:0)

这是一个难以解决的问题,因为视觉上类似的PDF可能具有截然不同的结构,具体取决于它们的生成方式。在最坏的情况下,库需要基本上像OCR一样。另一方面,PDF可能包含足够的结构和元数据,以便于删除表格和图形,可以定制图书馆以利用它。

我很确定没有开源工具可以解决各种各样的PDF问题,但我记得曾经听说过商业软件声称完全符合你的要求。我相信你会在谷歌搜索时遇到它们。

相关问题