apache-tika - Apache Tika无法从印度语言的PDF中正确提取文本

我尝试从PDF提取文本，它对英语工作正常，但对印度语（如印地语，泰米尔语，马拉雅拉姆语等）却无法正常工作。请参阅下面的示例，提取内容中的所有粗体文本均不正确。 Tika是否可以使用非英语语言？

原始文本：

மக்களுக்குப்，பரிசாக，டிவி，உள்ளிட்ட，உள்ளிட்ட23，பொருட்கள்，

提取文字：

மக்களக்கப்பரிசாக，எல்இடடவ，சனிமாடக்ககட，்்，்

மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்உள்ளிட்ட23
வகககபாரடக்ள்，சசகவகளின்

ககறக்கப்படட்வரிஇன்றமதல்。

更新：

如果我将PDF转换为JPG并使用 TesseractOCRParser ，并使用 Tamil 语言，则它比 PDFParser 更好。 >