什么是Tesseract OCR中的Blob

时间:2017-06-24 07:12:53

标签: ocr tesseract

我正在学习Tesseract OCR并阅读基于此articlearticle。从第一篇文章:

  

第一步是自适应阈值处理,它将图像转换为   二进制图像。下一步是连接组件分析   用于提取字符轮廓。这种方法非常有用   因为它用白色文字和黑色背景进行图像的OCR。   Tesseract可能首先提供这种方式   处理。然后,轮廓转换为Blob。   Blob被组织成文本行,以及行和   分析区域的某些固定区域或等效文本   大小

有人能解释什么是Blob吗?

2 个答案:

答案 0 :(得分:1)

来自https://tesseract-ocr.repairfaq.org/tess_glossary.html

  

斑点

     

扫描图像的孤立的小区域。它由大纲描绘。 Tesseract' juggles'斑点,看看它们是否可以进一步分裂成能够提高认可信心的东西。有时候,斑点会被合并在一起。如果这给出了更好的结果。例如,请参阅pithsync.cpp。

答案 1 :(得分:1)

通常,斑点(也称为连接分量)是二进制图像中的连接片(即,未被破坏)。换句话说,它是二进制图像中的实体元素。 Blob finders是任何旨在从数字图像中提取/测量数据的系统中的关键步骤。