Question

我按照FAQ来让Tesseract识别数字，但我得到的只是输出文件中的一堆文本，尽管我的图像中只有数字。

我的命令行如下所示：

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

任何想法可能会发生什么？。

Answer 1

正如tesseract github issue中所述，您不能使用tesseract 4.0 LSTM对字符进行黑名单或白名单，而应该训练LSTM中包含您希望在图像上使用的字符。

感谢Shreeshrii，您可以尝试从here

中获取训练数据的'实验'数字

请注意，Tesseract 4.0仍处于alpha阶段，如果您需要 - 您仍然可以使用3. *版本的tesseract来支持您的需求。 Tesseract v 3.4 tessdata位于here，Windows库可以从here下载