Tesseract简单列表的培训技巧

时间:2014-12-08 18:51:16

标签: python c++ ocr tesseract leptonica

所以我正在训练自适应分类器(Tesseract中的默认引擎)。 但是我遇到了一些麻烦,文档非常分散和/或缺失。

我正在为一个非常小的数据集开始训练,我想我刚开始使用arial black,直到我收集更多关于我的主题的数据。 我想识别化妆品上的标签(丹麦语),这只是一个列表(以逗号分隔的单词)。而且只有非常具体的词,特别是:

SMOR, OST, 酸奶, 聚物, ylette, fløde, 奶昔, laktose, mælkesukker, animalsk fedtstof, animalsk olie, smørolie, bagermargarine, 人造黄油, minarine, risbagemel, inddampetmælk, mælkebestanddele, mælketørstof, tørmælk, mælkepulver, skummetmælkspulver, sødmælkspulver, mælkeprotein, 乳清蛋白, kasein, kaseinat, calciumkaseinat, kaliumkaseinat, natriumkaseinat, 山谷, valleprotein, vallepulver, mælk,

以大写字母开头的相同词语(例如:“Vallepulver”)。 但是我一直无法找到适合这种形态的配置文件,我虽然我应该利用DAWG系统作为准确性和速度非常重要。

到目前为止,我采取了以下步骤: 使用jTessboxeditor生成.box文件 使用tesseract imagefile filename.exp0将.box文件转换为.tr文件,框nobatch box.train 然后使用unicharset_extractor filename.exp0.box提取unicharset 创建一个字体属性文件,其中包含以下内容:arial 1 0 0 0 0 然后用“mftraining”“cntraining”对角色特征进行聚类 将所有文件重命名为我选择的语言名称 创建包含上述列表的wordlist 使用wordlist2dawg将wordlist转换为lang.words.dawg 最后将数据与combine_tessdata lang结合起来。 但我仍然在经历非常不准确的结果(我使用scantailor预先处理图像,然后将它们送到Tesseract),这是我正在测试的图像(.tif格式):

https://drive.google.com/file/d/0B8e0HDFGiNZOOXpWbUQwc0l3N2xqYlE3SGN4d1BPcHlxQVRn/view?usp=sharing

系统只能识别上面列表中的单词(列表和图像之间的唯一匹配因此是“牛奶”)。

任何关于我可能做错/改进的建议(特别是在我不存在的配置中)都会非常令人沮丧,因为我现在已经挣扎了很长时间了。

真诚的绝望的书呆子。

0 个答案:

没有答案