将PDF电子表格数据提取到Python数据结构中

时间:2013-07-18 15:51:35

标签: python pdf extract

我有一些PDF电子表格,并且希望从每个数据表中提取数据,将其存储为类似于字符串的2d列表;本质上是以对象的形式从PDF中重新创建表/电子表格,我可以在我的代码中编制索引并使用它。 PDFMiner是实现这样的目标的最佳选择吗?如果表格/电子表格中的提取可以基于单元格以某种方式完成而不是寻找空格,那将是很好的,因为经常发生表格将在不同位置具有空单元格。

1 个答案:

答案 0 :(得分:3)

首先是简单的部分:是的,PDFMiner可能是你最好的选择: - )

上一句中的“大概”应该给你一个提示...... PDF提取可以是一种黑魔法;一切都取决于源PDF的格式/可预测性。

如果幸运的话,最快的解决方案可能是使用已建立的工具将PDF转换为其他可以轻松解析的格式(HTML会浮现在脑海中),然后从那里提取表格。事实上,这正是pdftable所做的......

有时这可能不起作用,您需要使用页面中的视觉线索来划分表格单元格。在这种情况下,pdfminer会派上用场。它可以告诉您所有文本的位置,并具有像PostScript渲染器之类的东西来“绘制”其他提取工具无法看到的线条。 This blog post解释了你如何做到这一点。