Apache Tika无法从印度语言的PDF中正确提取文本

时间:2019-01-01 05:06:46

标签: apache-tika

我尝试从PDF提取文本,它对英语工作正常,但对印度语(如印地语,泰米尔语,马拉雅拉姆语等)却无法正常工作。请参阅下面的示例,提取内容中的所有粗体文本均不正确。 Tika是否可以使用非英语语言?

原始文本:

மக்களுக்குப்,பரிசாக,டிவி,உள்ளிட்ட,உள்ளிட்ட23,பொருட்கள்,

提取文字:

மக்களக்கப்பரிசாக,எல்இடடவ,சனிமாடக்ககட,்்,்

மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்உள்ளிட்ட23
 வகககபாரடக்ள்,சசகவகளின்

ககறக்கப்படட்வரிஇன்றமதல்

更新:

如果我将PDF转换为JPG并使用 TesseractOCRParser ,并使用 Tamil 语言,则它比 PDFParser 更好。 >

0 个答案:

没有答案