python - 高级PDF使用Python解析（提取没有表格的文本等）：什么是最佳库？

高级PDF使用Python解析（提取没有表格的文本等）：什么是最佳库？

时间：2009-12-04 17:28:30

标签： python pdf parsing text-extraction information-extraction

我正在寻找一个PDF库，它允许我从PDF文档中提取文本。我看过PyPDF，这可以很好地从PDF文档中提取文本。这样做的问题是，如果文档中有表，则表中的文本将与文档文本的其余部分一起提取。这可能会有问题，因为它会产生一些无用的文本部分并且看起来很乱（例如，大量的数字混在一起）。

我正在寻找更高级的东西。我想从PDF文档中提取文本，排除任何表格和特殊格式。那里有图书馆吗？或者我是否被迫对输出文本进行一些后处理以摆脱这些部分？

2 个答案:

答案 0 :(得分：56)

您还可以查看PDFMiner，这是Python中的其他PDF解析器。

您感兴趣的PDFMiner的特殊之处在于您可以控制在进行提取时重新组合文本部分的方式。你可以通过指定行，单词，字符等之间的空格来做到这一点。因此，也许通过tweeking你可以实现你想要的（这取决于你的文档的可变性）。 PDFMiner还可以为您提供页面中文本的位置，它可以通过Object ID和其他内容提取数据。所以挖掘PDFMiner并发挥创意！

但是你的问题真的不容易解决，因为在PDF中，文本不是连续的，而是由绝对位于页面中的许多小字符组构成的。 PDF的重点是保持布局完好无损。它不是面向内容的，而是面向演示的。

答案 1 :(得分：0)

这是一个难以解决的问题，因为视觉上类似的PDF可能具有截然不同的结构，具体取决于它们的生成方式。在最坏的情况下，库需要基本上像OCR一样。另一方面，PDF可能包含足够的结构和元数据，以便于删除表格和图形，可以定制图书馆以利用它。

我很确定没有开源工具可以解决各种各样的PDF问题，但我记得曾经听说过商业软件声称完全符合你的要求。我相信你会在谷歌搜索时遇到它们。