从pdf图像文件中提取文本

时间:2019-08-27 14:05:03

标签: python image ocr text-extraction

我有一个图像文件,我想从给定图像中提取文本,我尝试了各种OCR引擎,但是我无法找到左侧实体和右侧实体之间的关系,因为OCR引擎只是提取没有该关系的文本在实体之间。 对于示例交易(公司借钱),帐户1:现金帐户2:应付贷款

我尝试使用各种OCR引擎以及PyPDF2和pdftotext I have attached an image file for which I am trying extract text and trying to find the relationship between the left entity and right side entity

提取文本

1 个答案:

答案 0 :(得分:0)

  • 是否所有要分析的图像都是这样?
  • 该示例是否反映了您要分析的图像的真实性?
  • 每列的限制是否始终保持在同一位置?

由于您未指定此内容,因此我将假设所有人都同意。

主要问题是获取OCR字符串后,您将无法确定空格是单词之间的空格还是列之间的空格。

要解决此问题,请在每列上裁剪图像并在每列上分别进行OCR,因此最终应使用3个字符串,每列一个。

用'\ n'分隔每个字符串,您应该有3个数组,每行包含行

比较数组的大小,如果3个数组中的任何一个具有不同的大小,则表示提取失败,您应该重试/清理图像。

迭代第二个和/或第三个数组上的元素,查找只是“ \ n”的元素,假定此处不能有空字段,如果一行仅是“ \ n”,则必须表示第一列上的字段最多使用2行或更多行,因此请删除第一个数组和第二个数组中的该元素,并将该元素和下一个数组中的下一个元素连接起来。

如果所有三个数组都具有相同数量的元素,并且您加入了使用多行的条目,那么您就可以知道该关系是由数组的位置设置的。

相关问题