我对数据抓取很新,我面临一个小问题。
我正在尝试使用textract
和Tesseract
OCR从印地语pdf中提取文字。
以下是Python中的代码:
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
现在,正确提取了PDF中的许多单词。但是,有些事情搞砸了。我阅读了文档以及如何使用文件lang.unicharambigs
覆盖歧义。但是,我需要运行combine_tessdata
才能使其生效并覆盖某些经过培训的数据。
但是,当我尝试运行命令时,我得到以下内容:
-bash: combine_tessdata: command not found
我从源代码安装了tesseract
,我似乎无法理解为什么会这样。关于如何排除故障的任何想法?
提前致谢!
答案 0 :(得分:2)
Tesseract培训可执行文件是单独构建的。