tesseract - Tesseract区域识别失败

tesseract区域识别失败。

我需要处理个人文档的扫描图像，例如身份证，社会保险卡，其他识别特殊文件等... 所需信息的位置精确，但位置取决于文档类型。

因此，根据文档类型，我创建了一个特定的uzn文件，其中包含位置和尺寸所需的字段，然后我使用选项psm 4处理图像，希望仅获取所需的字段。

从一个调用到另一个调用的结果是非常可变的：如果我反复调用引擎，传递相同的图像和相同的参数，有时引擎返回正确的信息，有时只返回某些字段。

似乎没有可识别的规则。

我试图通过几种方式指定区域：

引擎似乎正常工作的唯一情况是，当我指定一个包含所有我需要的字段的区域时，但是分析输出变得更加困难，因为每个字段可以包含一个词以上，并且在我需要的字段之间可能有不需要的字段，因此结果不容易解析。

我正在使用Centos上的tesseract版本4.0.0-beta1执行这些测试。

tesseract 4.0.0-beta.1 Leptonica-1.75.3 libjpeg 6b（libjpeg-turbo 1.2.90）：libpng 1.5.13：libtiff 4.0.3：zlib 1.2.7：libwebp 0.3.0

Linux版本3.10.0-862.2.3.el7.x86_64（builder@kbuilder.dev.centos.org）

有什么建议吗？问候。

毛里齐奥