Question

我对数据抓取很新，我面临一个小问题。

我正在尝试使用textract和Tesseract OCR从印地语pdf中提取文字。以下是Python中的代码：

import textract

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

现在，正确提取了PDF中的许多单词。但是，有些事情搞砸了。我阅读了文档以及如何使用文件lang.unicharambigs覆盖歧义。但是，我需要运行combine_tessdata才能使其生效并覆盖某些经过培训的数据。

但是，当我尝试运行命令时，我得到以下内容：

 -bash: combine_tessdata: command not found

我从源代码安装了tesseract，我似乎无法理解为什么会这样。关于如何排除故障的任何想法？

提前致谢！

Answer 1

Tesseract培训可执行文件是单独构建的。