Tesseract似乎不适用于数字

时间:2018-01-11 15:25:39

标签: tesseract

我按照FAQ来让Tesseract识别数字,但我得到的只是输出文件中的一堆文本,尽管我的图像中只有数字。

我的命令行如下所示:

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

任何想法可能会发生什么?。

1 个答案:

答案 0 :(得分:3)

正如tesseract github issue中所述,您不能使用tesseract 4.0 LSTM对字符进行黑名单或白名单,而应该训练LSTM中包含您希望在图像上使用的字符。

感谢Shreeshrii,您可以尝试从here

中获取训练数据的'实验'数字

请注意,Tesseract 4.0仍处于alpha阶段,如果您需要 - 您仍然可以使用3. *版本的tesseract来支持您的需求。 Tesseract v 3.4 tessdata位于here,Windows库可以从here下载