如何在图像中找到类似结构的表格

时间:2018-06-13 05:51:06

标签: python image opencv image-processing

我有发票文件,我想在每张发票中找到表格。这个表位置不会是常数。所以我来图像处理。首先,我尝试将发票转换为图像。然后我发现基于表格边框的轮廓最终占据了表格位置。 我使用下面的代码来完成我的任务。

with Image(page) as page_image:
    page_image.alpha_channel = False #eliminates transperancy
    img_buffer=np.asarray(bytearray(page_image.make_blob()), dtype=np.uint8)
    img = cv2.imdecode(img_buffer, cv2.IMREAD_UNCHANGED)

    ret, thresh = cv2.threshold(img, 127, 255, 0)
    im2, contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
    margin=[]
    for contour in contours:
        # get rectangle bounding contour
        [x, y, w, h] = cv2.boundingRect(contour)
        # Don't plot small false positives that aren't text
        if (w >thresh1 and h> thresh2):
                margin.append([x, y, x + w, y + h])
    #data cleanup on margin to extract required position values.

在此代码thresh1中,thresh2我将根据文件进行更新。

因此,使用此代码,我可以成功读取图像中表格的位置,使用此位置我将在我的发票pdf文件上工作。例如

样本1:

enter image description here

样本2:

enter image description here

样本3: enter image description here

输出:

样本1:

enter image description here

样本2:

enter image description here

样本3:

enter image description here

但现在我有了一种新的格式,它没有任何边框,但它是一张桌子。怎么解决这个?因为我的整个操作完全取决于表的边界。但现在我没有桌边框。我怎样才能做到这一点?作为我在图像处理方面的初学者,我不知道要摆脱这个问题。我的问题是,有没有办法找到基于表结构的位置?

例如,我的问题输入如下所示:

enter image description here

我想找到它的下面的问题: enter image description here

我该如何解决这个问题? 能给我一个解决这个问题的想法真的很明显。

提前致谢。

4 个答案:

答案 0 :(得分:18)

Vaibhav是正确的。您可以尝试不同的形态学变换,以将像素提取或分组为不同的形状,线条等。例如,方法可以是:

  1. 从“膨胀”开始,将文本转换为实心点。
  2. 然后应用findContours函数作为下一步查找文本 边界框。
  3. 在具有文本边界框之后,可以应用一些 启发式算法将文本框按其分组 坐标。这样,您可以找到一组对齐的文本区域 分为行和列。
  4. 然后,您可以按x和y坐标和/或某些坐标进行排序 对组进行分析以尝试查找分组的文本框是否可以 形成表格。

我写了一个小样本来说明这个想法。我希望代码可以自我解释。我也在那里发表了一些评论。

SocketAsyncEventArgs

我得到以下输出:

Sample table extraction

当然要使该算法更健壮并适用于各种不同的输入图像,必须对其进行相应的调整。

答案 1 :(得分:4)

文档图像中的表格类型很多,变化和布局太多。无论您编写多少规则,总会出现一个表,您的规则将因此失败。这些类型的问题通常使用基于ML(机器学习)的解决方案来解决。您可以在github上找到许多预先实现的代码,以解决使用ML或DL(深度学习)检测图像中表格的问题。

这是我的代码以及深度学习模型,该模型可以检测各种类型的表以及表中的结构单元:https://github.com/DevashishPrasad/CascadeTabNet

就准确性而言,该方法目前(2020年5月10日)已在各种公共数据集上达到了最先进的水平

更多详细信息:https://arxiv.org/abs/2004.12629

答案 2 :(得分:2)

你可以尝试在findContours函数之前应用一些形态变换(如膨胀,侵蚀或高斯模糊)作为预处理步骤

例如

blur = cv2.GaussianBlur(g, (3, 3), 0)
ret, thresh1 = cv2.threshold(blur, 150, 255, cv2.THRESH_BINARY)
bitwise = cv2.bitwise_not(thresh1)
erosion = cv2.erode(bitwise, np.ones((1, 1) ,np.uint8), iterations=5)
dilation = cv2.dilate(erosion, np.ones((3, 3) ,np.uint8), iterations=5)

最后一个参数,迭代显示将发生的膨胀/侵蚀程度(在您的情况下,在文本上)。具有较小的值将导致小的独立轮廓,即使在字母表中也是如此,并且较大的值将引导许多附近的元素。您需要找到理想值,以便只有您的图像块。

请注意,我已经将150作为阈值参数,因为我一直致力于从具有不同背景的图像中提取文本,这样做效果更好。您可以选择继续使用您所使用的值,因为它是黑色和白色图片。

答案 3 :(得分:0)

这将对您有所帮助。 我为发票中的每个单词绘制了一个边界框,然后我将仅选择所需的字段。您可以使用该ROI(感兴趣区域)

import pytesseract
from pytesseract import Output
import cv2

img = cv2.imread(r'path\Invoice2.png')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes):
    (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])    
    img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 1)

cv2.imshow('img', img)
cv2.waitKey(0)

您将获得此输出 bounding box for each field