应用错误收集

所以我现在正在尝试tesseract，它确实有效，但它不够准确。我知道图像质量也起到了作用等作用，但我使用的一些文档使用了一种相当不寻常的字体。它仍然可以识别它的一部分（约50-60％，这是相当不错的），但这显然不完全令人满意。

我现在想知道是否可以训练tesseract，但不是要创建一种全新的语言，而是使用我已经使用的数据，并在此基础上进行改进并改进它？

其次，如果可以的话，这是否可取？或者（2）为我遇到的每种新字体创建新语言会更好，或（3）为我遇到的每种新字体创建新语言，但不是从头开始，而是始终建立在默认情况下我现在正在使用的数据？你怎么看？如果您可以提供有关如何训练tesseract＆amp;的任何链接利用已经提供的培训数据，请告诉我。

您可以从文档中提供的.traineddata文件中提取文件：指定选项-u将所有组件解压缩到指定的路径：

combine_tessdata -u tessdata / eng.traineddata / home / $ USER / temp / eng。这将创建/home/$USER/temp/eng.*文件，其中包含来自tessdata / eng.traineddata的各个tessdata组件。还有其他选项，请查看以下链接中的文档。 https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc

但是，不是使用原始文件，而是建议用新语言训练tesseract。

（2）您不必为每种字体创建新的语言。您必须为每种字体创建图像，框和培训文件。然后将所有这些文件合并为一种语言的训练数据文件。< / p>

（3）这也是可能的。请访问 https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#bootstrapping-a-new-character-set

如何训练tesseract但不创建新语言？

1 个答案: