Tesseract用于训练的TessData字体

时间:2017-04-06 13:14:48

标签: android tesseract

我在Android应用中使用tesseract进行OCR。我专注于中文,但我只需要识别几个关键字,所以我想用jTessBoxEditor创建我的.traineddata文件。我想知道中文繁体TessData文件使用什么字体? https://github.com/tesseract-ocr/tessdata

或者,有没有办法可以编辑chi_tra.traineddata文件,因此它只能识别几个关键字?我这样做的主要原因是文件大小为63.4 MB,tesseract在完成之前大约需要2到3分钟。准确性很好,但速度很慢。

1 个答案:

答案 0 :(得分:1)

所有font_properties经过培训的语言的tesseract个文件都可以在github中找到。您可以查看列表中支持的繁体中文特定字体。

从github中的tesseract-ocr/langdata文件夹here,您可以查看chi_tra.wordlistchi_tra文件夹,找到用于培训的字词。