Question

我正在将带有tesseract的旧报纸拒之门外，我对结果总体上感到满意。不过，我注意到，tesseract通常会猜测似乎应该用字典检查或某种概率性猜测（例如，像手机上的自动更正）那样容易捕获和纠正的非单词。例如，在下面的段落中，tesseract猜测连字单词{ "id": 1, "worker_id": "Admin", "first_name": "Eba", "father_name": "Aleamyehu", "grand_father_name": "Tufa", "email": "ebaaleamyhu3@gmail.com", "phone": "091086788", "gender": "Male", "role_id": 1, "isFirstTime": 1, "profile_pic": "avatar.jpg", "deleted_at": null, "created_at": null, "updated_at": null }的{{1}}和ar-resis的{{1}}。

图像输入

OCR输出

ar-rests

如果您查看附件中的图像，则两者都是基于像素的合理猜测（也就是说，在bricf中倒数第二个字符似乎更像brief，而不是into the air, and making ar- resis, The bricf battle followed -bombarding of at least three po-）。 brief并不是英语词典中会出现的单词，而且与该单词非常接近。

这引起了两个相关的问题。首先，是否有一个配置选项会增加tesseract将c转换为e的可能性？我尝试增加对非字典词（bricf）的惩罚，但没有明显效果。

第二，是否有一个选项可能会诱使tesseract尝试将诸如bricf之类的带连字符的单词重新组合为brief（理想情况下，然后与字典进行比较以猜测language_model_penalty_non_dict_word ）？

使用字典词和/或带连字符的词来提高tesseract的质量？

0 个答案: