python - 从pdf图像文件中提取文本

由于您未指定此内容，因此我将假设所有人都同意。

主要问题是获取OCR字符串后，您将无法确定空格是单词之间的空格还是列之间的空格。

要解决此问题，请在每列上裁剪图像并在每列上分别进行OCR，因此最终应使用3个字符串，每列一个。

用'\ n'分隔每个字符串，您应该有3个数组，每行包含行

比较数组的大小，如果3个数组中的任何一个具有不同的大小，则表示提取失败，您应该重试/清理图像。

迭代第二个和/或第三个数组上的元素，查找只是“ \ n”的元素，假定此处不能有空字段，如果一行仅是“ \ n”，则必须表示第一列上的字段最多使用2行或更多行，因此请删除第一个数组和第二个数组中的该元素，并将该元素和下一个数组中的下一个元素连接起来。

如果所有三个数组都具有相同数量的元素，并且您加入了使用多行的条目，那么您就可以知道该关系是由数组的位置设置的。