训练Tesseract OCR的模糊性

时间:2016-03-23 21:01:30

标签: python ocr tesseract

我对数据抓取很新,我面临一个小问题。

我正在尝试使用textractTesseract OCR从印地语pdf中提取文字。 以下是Python中的代码:

import textract

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

现在,正确提取了PDF中的许多单词。但是,有些事情搞砸了。我阅读了文档以及如何使用文件lang.unicharambigs覆盖歧义。但是,我需要运行combine_tessdata才能使其生效并覆盖某些经过培训的数据。

但是,当我尝试运行命令时,我得到以下内容:

 -bash: combine_tessdata: command not found

我从源代码安装了tesseract,我似乎无法理解为什么会这样。关于如何排除故障的任何想法?

提前致谢!

1 个答案:

答案 0 :(得分:2)

Tesseract培训可执行文件是单独构建的。

https://github.com/tesseract-ocr/tesseract/wiki/Compiling