我还是Tesseract OCR的新手,在我的脚本中使用它后发现它对我试图从中提取文本的图像有一个相对较大的错误率。我遇到了Tesseract培训,据说可以降低您使用的特定字体的错误率。我遇到了一个网站(http://ocr7.com/),这是一个由Anyline提供支持的工具,可以对您指定的字体进行所有培训。所以我收到了一个.traineddata文件,我不太清楚如何处理它。任何人都可以解释我与这个文件有什么关系吗?或者我应该学习如何以手动方式进行Tesseract培训,根据Anyline网站,可能需要一天的工作。提前致谢。
答案 0 :(得分:6)
对于仍然要阅读此内容的任何人,您可以使用此工具获取您想要的任何字体的训练数据文件。之后,在tessdata文件夹中移动训练的数据文件。要使用Python中的新字体或任何其他语言的tesseract(我认为?)将lang = "Font"
作为第二个参数放在image_to_string函数中。它显着提高了准确性,但仍然可以犯错误。或者您也可以通过本指南了解如何使用本指南手动训练tesseract获取新字体:http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/。
答案 1 :(得分:1)
这是一个有有效答案的老问题,但是,如果您仍然碰巧遇到过这个问题,这里有一个免费的在线工具,用于生成.traineddata
文件:
http://trainyourtesseract.com/
免责声明:我不是该工具的作者,但确实解决了我的问题,并且所生成模型的精度足以满足我的需求。
答案 2 :(得分:0)
如果要使用新字体训练tesseract,请使用所需字体生成.traineddata文件。为了生成.traineddata,首先需要.tiff文件和.box文件。您可以使用jTessBoxEditor创建这些文件。 jBossTextEditor的教程是here。在制作.tiff文件时,您可以设置火车tesseract的字体。您可以使用jTessBoxEditor生成.traineddata,也可以使用serak-tesseract-trainer。我都用过,我会说jTessBoxEditor可以用于生成tiff和box文件,并且可以用于训练tesseract。
答案 3 :(得分:0)
我制作了一个视频教程,解释了最新版本的Tesseract(LSTM模型)的过程,希望对您有所帮助。 https://www.youtube.com/watch?v=TpD76k2HYms