pdf - 如何从历史PDF中提取表格？

更新2/26： 我可以解决我自己的问题，尽管可以使用快速或更好的解决方案进行响应。

主要问题之一是表的尺寸大致相似，但页面之间存在差异。扫描的图像在页面之间也略有偏移，从而出现两个对齐问题。我当前的工作流程可以同时解决这两个问题。

解决方案：

相同表格类型的图像仍未对齐，因此无法在（x，y）坐标中指定表格布局。每个图片中的表格位置都不同。

我需要根据桌子的位置对齐图像，但是没有检测到桌子，就没有很好的方法。

我以一种有趣的方式解决了这个问题，但是我首先尝试了以下步骤。

使用Opencv检测垂直线。结果：没有很好地检测到模糊的线条。经常会错过一些行，使其无法对齐。
使用“扫描裁缝”检测内容。结果：由于图像中的斑点，检测算法会在某些文件中过多裁剪某些表，而在其他文件中则包含空白。去除斑点没有帮助。
使用具有宽表区域的Camelot，没有列值。结果：这在其他情况下可能效果很好，但是Camelot在这里失败了。报告的数据低至美分，每三位数之间有空格。这导致00在几列中错位。

解决方案：

将图像切成表格类型对齐部分中介绍的表格后，请使用Photoshop中的“自动对齐图层”功能对齐图像。

分步解决方案：

完成！根据需要合并每个表的文件。完成项目后，我将发布用于执行此操作的python代码。清理后，我也将发布数据。

代替Camelot table_areas参数（它指定固定边界），您可以尝试使用table_regions参数指定表可能所在的区域（Camelot将仅分析指定区域以查找表）。

请及时通知我们。