扫描的PDF文档中的语言检测

时间:2013-03-26 11:48:54

标签: pdf image-processing ocr tesseract apache-tika

我正在尝试查找PDF文档的语言并对其进行分类。我面临的主要问题是文档被扫描的PDF文档。没有字体或Unicode的线索。

所以Apache Tikka这里没有多大帮助。

我尝试使用tesseract将文档从PDF转换为文本然后将提取的文本传递给谷歌服务它工作正常。但有三个问题:

  • Tesseract只能转换高质量的图片。

  • 能够使用西班牙语,法语等类似英语的语言,但日语,中文等语言不能用。

  • 文档文本是保密的,所有操作都应该在内部进行。

    现在我正在寻找一个独立的语言检测组件,该组件适用于扫描的PDF文档。

0 个答案:

没有答案