使用Camelot查找PDF尺寸

时间:2019-01-14 06:32:44

标签: python pdf-extraction python-camelot

我正在使用Camelot读取完整的PDF,并从每个PDF中提取大约112个属性。

我使用表格区域提取属性

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38, 340 ,50, 328']) 

问题是在所有文档中,同一属性的表区域不是恒定的。有时,我会在另一个文档的x或y坐标上找到同一个属性,但位于x或y坐标的下方几个像素。

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38,350,50,338']) 

是否有一种方法可以从同一区域获取确切的属性,而与提取任何文档无关?

2 个答案:

答案 0 :(得分:2)

也许table_regions选项(在0.7中引入)可以为您提供帮助。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions

“指定table_regions时,Camelot将仅分析指定的区域以查找表。”

您可以定义一个较大的table_regions区域,而Camelot将在该区域中搜索表。

答案 1 :(得分:1)

Camelot使用opencv的坐标系,并且尺寸可以使用opencv的.shape

获得

请参阅骆驼图像处理here的源代码和opencv的文档here