pdf - 从没有垂直线的PDF表格中提取表格

时间：2019-10-04 15:05:36

标签： pdf tabula python-camelot

我想从如下图所示的PDF文件中提取表格：

PDF文件包含文本，而不是扫描的图像。我一直在尝试使用Camelot并没有成功。 lattice样式不起作用，因为没有垂直线，并且stream样式无法正确分隔行。我玩过row_tol，但是因为行的高度不同，所以并非所有行都起作用。

是否可以使用lattice方法，但要考虑垂直线的列分隔符？还是有另一种提取表的方法？

答案 0 :(得分：0)

我不确定您的表格是否始终遵循相同的布局/逻辑。但是，如果这样做，您可以尝试使用Poppler并使用可识别布局的文本转换并将其手动解析为csv或其他格式。

PDF是一种非常丑陋的表格数据格式。

答案 1 :(得分：0)

在 python 中尝试使用 PDFplumber。使用 extract_tables(vertical_strategy="text") 。但我不确定结果是否准确，因为表中带有“注释”。