我当时正在使用tabula-py解析银行对帐单,其中的列由垂直边距分隔,但行未分隔。 因此我使用流模式,但是如果在任何页面中都没有任何列的条目,则制表将它们合并为一个 代码
tables=tabula.read_pdf("pdfname.pdf",pages='all')
所以我使用 columns选项手动选择列
tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])
但是它什么也做不了,就像表格甚至不读选项 输出与先前相同 抱歉,我不能出于隐私目的将该表发布。
[我的桌子有点像 您可以在https://i.stack.imgur.com/f40V0.png]
查看图像答案 0 :(得分:0)
columns
关键字参数应为数字数组:
tables = tabula.read_pdf("pdfname.pdf",
pages='all',
columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])
答案 1 :(得分:0)
据我所知,tabula-py
只是tabula-java
的包装,因此提取精度与表格应用程序相同。尝试使用PDFplumber。