未检测到列

时间:2019-06-28 08:31:15

标签: python tabular tabula tabula-py

我当时正在使用tabula-py解析银行对帐单,其中的列由垂直边距分隔,但行未分隔。 因此我使用流模式,但是如果在任何页面中都没有任何列的条目,则制表将它们合并为一个 代码

tables=tabula.read_pdf("pdfname.pdf",pages='all')

所以我使用 columns选项手动选择列

tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])

但是它什么也做不了,就像表格甚至不读选项 输出与先前相同 抱歉,我不能出于隐私目的将该表发布。

[我的桌子有点像 您可以在https://i.stack.imgur.com/f40V0.png]

查看图像

2 个答案:

答案 0 :(得分:0)

columns关键字参数应为数字数组:

tables = tabula.read_pdf("pdfname.pdf",
                         pages='all',
                         columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])

答案 1 :(得分:0)

据我所知,tabula-py只是tabula-java的包装,因此提取精度与表格应用程序相同。尝试使用PDFplumber

相关问题