pypdf没有从pdf中提取表格

时间:2013-07-08 09:27:36

标签: python pypdf

我正在使用pypdf从pdf文件中提取文本。问题是不提取pdf文件中的表。我也尝试过使用pdfminer,但我遇到了同样的问题。

1 个答案:

答案 0 :(得分:5)

问题是PDF中的表通常由绝对定位的行和字符组成,将它转换为合理的表格表示是非常重要的。

在Python中,PDFMiner可能是你最好的选择。它为您提供了布局对象的树结构,但您必须通过查看行(LTLine)和文本框(LTTextBox)的位置来自行解释。 There's a little bit of documentation here

或者,PDFX尝试这种方式(并且通常会成功),但您必须将其用作Web服务(不理想,但对于偶尔的工作很好)。要从Python执行此操作,您可以执行以下操作:

import urllib2
import xml.etree.ElementTree as ET

# Make request to PDFX
pdfdata = open('example.pdf', 'rb').read()
request = urllib2.Request('http://pdfx.cs.man.ac.uk', pdfdata, headers={'Content-Type' : 'application/pdf'})
response = urllib2.urlopen(request).read()

# Parse the response
tree = ET.fromstring(response)
for tbox in tree.findall('.//region[@class="DoCO:TableBox"]'):
    src = ET.tostring(tbox.find('content/table'))
    info = ET.tostring(tbox.find('region[@class="TableInfo"]'))
    caption = ET.tostring(tbox.find('caption'))