PDF文件包含文本,而不是扫描的图像。我一直在尝试使用Camelot并没有成功。 lattice
样式不起作用,因为没有垂直线,并且stream
样式无法正确分隔行。我玩过row_tol
,但是因为行的高度不同,所以并非所有行都起作用。
是否可以使用lattice
方法,但要考虑垂直线的列分隔符?还是有另一种提取表的方法?
答案 0 :(得分:0)
我不确定您的表格是否始终遵循相同的布局/逻辑。但是,如果这样做,您可以尝试使用Poppler并使用可识别布局的文本转换并将其手动解析为csv或其他格式。
PDF是一种非常丑陋的表格数据格式。
答案 1 :(得分:0)
在 python 中尝试使用 PDFplumber。使用 extract_tables(vertical_strategy="text") 。但我不确定结果是否准确,因为表中带有“注释”。