训练Tesseract获取新字体

时间:2014-11-20 19:57:03

标签: tesseract

使用

创建CLUSTERING数据时
mftraining -F font_properties -U unicharset -O lan.unicharset *.tr

我收到以下消息

C:\Users\ \AppData\Local\Tesseract-OCR>mftraining -F font_properties -U unicharset -O eng1.unicharset eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr>

Warning: No shape table file present: shapetable
Failed to load unicharset from file unicharset
Building unicharset for training from scratch...
Failed to load unicharset from file unicharset
Building unicharset for boosting from scratch...
Failed to load unicharset from file unicharset
Building unicharset for boosting from scratch...
Failed to load unicharset from file unicharset
Building unicharset for boosting from scratch...
Reading eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr> ...

Flat shape table summary: Number of shapes = 0 max unichars = 0 number with multiple unichars = 0

Done!

它重建了我已经完成的unicharset并给了我一个1kb 只有这个数据的价值

1
NULL 0 NULL 0

此时我不知道该怎么做。我是这个程序的第一次用户,但对我来说这似乎不对吗?

2 个答案:

答案 0 :(得分:2)

看起来您需要对培训页面的角色功能进行聚类,如here所述。

我认为对此的基本命令是:

shapeclustering -F font_properties -U unicharset lang.fontname.exp0.tr lang.fontname.exp1.tr ...

这似乎是版本3.02中添加的内容。

答案 1 :(得分:0)

如果你正在使用Windows,我认为this tool可以帮助你更轻松地完成培训过程。在使用Tesseract之前,我一直在学习如何训练Tesseract。只需下载最新版本并阅读用户手册,您就可以在不触摸键盘的情况下训练Tesseract!