如何使用java从扫描的pdf文件中提取文本

时间:2013-09-26 07:17:41

标签: java itext tesseract pdfbox pdftotext

我手动扫描了一些硬拷贝文件并存储到pdf文件中(软拷贝)。现在这些pdf文件是我的输入,所以我需要从这些pdf文件中提取文本。我尝试了tika,pdfbox,itext,tess4j没有给我的文件50%的准确度(主要是垃圾数据)给我的文件(获取从互联网上下载的其他pdf的确切文本),你能建议我解决这个问题。

由于

0 个答案:

没有答案
相关问题