从没有垂直线的PDF表格中提取表格

时间:2019-10-04 15:05:36

标签: pdf tabula python-camelot

我想从如下图所示的PDF文件中提取表格: enter image description here

PDF文件包含文本,而不是扫描的图像。我一直在尝试使用Camelot并没有成功。 lattice样式不起作用,因为没有垂直线,并且stream样式无法正确分隔行。我玩过row_tol,但是因为行的高度不同,所以并非所有行都起作用。

是否可以使用lattice方法,但要考虑垂直线的列分隔符?还是有另一种提取表的方法?

2 个答案:

答案 0 :(得分:0)

我不确定您的表格是否始终遵循相同的布局/逻辑。但是,如果这样做,您可以尝试使用Poppler并使用可识别布局的文本转换并将其手动解析为csv或其他格式。

PDF是一种非常丑陋的表格数据格式。

答案 1 :(得分:0)

在 python 中尝试使用 PDFplumber。使用 extract_tables(vertical_strategy="text") 。但我不确定结果是否准确,因为表中带有“注释”。