禁用tesseract词典以使用python提高质量

时间:2019-01-07 03:01:02

标签: python tesseract

我正在使用tessract-ocr 4.00来识别python应用程序上的文本。问题是我的大部分文本都是非字典类型的,因此为了提高识别质量,Github页面建议禁用字典。但是,碰巧无法通过pytesseract-python中的包装器库完成此可配置的操作。 我挖了一下,找到了另一个配置的选项:language_model_penalty_non_dict_word

因此,通过设置language_model_penalty_non_dict_word = 0.0,这等于tesseract中的load_system_dawg = False吗?

0 个答案:

没有答案