Question

我有以下图片：

当我使用-l eng+rus（或-l rus+eng）调用tesseract时，会得到以下结果：

Повар спрашивает повара - 200 ВОВ!

如您所见，文本的俄语部分被认为可以，但RUB的部分是错误的，因为据我所知，Tesseract认为这是俄语文本。尽管BOB单词的置信度仅为34，但看起来Tesseract并未尝试使用英语。除了将文本分成两组并分别在它们上运行Tesseract之外，是否还有其他解决方法？（我知道第二部分始终是英语，但第一部分可以是英语或俄语）。

P.S我尝试使用西里尔语脚本训练数据（Cyrillic.traineddata），但结果几乎相同（Повар спрашивает повара - 200 ВЏВ!）

Answer 1

尽管您使用正确的语法进行多语言识别，但结果清楚地表明“ BOB”被错误分类。您要做一件事，首先仅在英语模式下运行此文本并查看结果，它很可能会将BOB读为正确的文本。然后，在此检查之后，更改用于英语文本识别的默认模型。希望它将做出相同的调整。如果不是这样，那么您将不得不忍受这些结果，因为tesseract并未获得100％的结果。

Tesseract 4有两种语言

1 个答案: