我按照FAQ来让Tesseract识别数字,但我得到的只是输出文件中的一堆文本,尽管我的图像中只有数字。
我的命令行如下所示:
tesseract --tessdata-dir ./ ./input.jpg ./output/output digits
任何想法可能会发生什么?。
答案 0 :(得分:3)
正如tesseract github issue中所述,您不能使用tesseract 4.0 LSTM对字符进行黑名单或白名单,而应该训练LSTM中包含您希望在图像上使用的字符。
感谢Shreeshrii,您可以尝试从here
中获取训练数据的'实验'数字请注意,Tesseract 4.0仍处于alpha阶段,如果您需要 - 您仍然可以使用3. *版本的tesseract来支持您的需求。 Tesseract v 3.4 tessdata位于here,Windows库可以从here下载