Question

我当时正在使用tabula-py解析银行对帐单，其中的列由垂直边距分隔，但行未分隔。因此我使用流模式，但是如果在任何页面中都没有任何列的条目，则制表将它们合并为一个代码

tables=tabula.read_pdf("pdfname.pdf",pages='all')

所以我使用 columns选项手动选择列

tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])

但是它什么也做不了，就像表格甚至不读选项输出与先前相同抱歉，我不能出于隐私目的将该表发布。

[我的桌子有点像您可以在https://i.stack.imgur.com/f40V0.png]

查看图像

Answer 1

columns关键字参数应为数字数组：

tables = tabula.read_pdf("pdfname.pdf",
                         pages='all',
                         columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])

Answer 2

据我所知，tabula-py只是tabula-java的包装，因此提取精度与表格应用程序相同。尝试使用PDFplumber。

未检测到列

2 个答案: