通过从图像中查找文本坐标来提取文本区域

时间:2014-07-15 09:28:18

标签: tesseract leptonica

我正在开发一种图像处理软件,从手机摄像头拍摄的图像中提取/裁剪和增强这种裁剪的单页表格。表格没有矩形边界,以简化提取过程。是黑色的白色背景文本格式,但除此之外没有任何东西是固定的。现在将出现一些文本,将验证图像是否是所需的形式。所以我的问题是这些。

1)我可以使用leptonica库本身搜索特定的正则表达式,或者我是否必须将焦点转移到tessarect API之类的其他库来执行此操作。到目前为止,我还没有发现任何此类

2)现在假设我知道左上角和右下角的文字,我成功地搜索了它。我可以得到我正在搜索的特定文本的坐标,然后相应地裁剪图像吗? / p>

1 个答案:

答案 0 :(得分:0)

Leptonica对文字没有任何作用,它是一个图像处理库。

要启用获取文本的位置,请将tessedit_create_hocr 1添加到Tesseract配置文件中(或者,如果您将Tesseract用作库,则设置此选项以配置Tesseract。)

结果不再是文本文件,而是UTF-8编码的HTML文件(注意:它不是有效的XML)。其格式不言自明。它将包含所有页面上所有单词的位置和尺寸,以像素为单位,如输入图像中所示。您需要解析该HTML,找到您正在寻找的单词,然后获得这些单词的边界框。

相关问题