将图像转换为可搜索的pdf

时间:2012-02-01 20:42:04

标签: java pdf ocr tiff

您好我正在寻找一个可以将tiff图像转换为可搜索的pdf(OCR)的开源Java API。我有研究但到目前为止没有找到任何结果。

注意 我看过这篇文章,但是这个API没有将图像转换为pdf Java OCR implementation。但是,我仍在使用代码。

2 个答案:

答案 0 :(得分:6)

您可以使用iText将图像转换为PDF。这里的难点在于进行OCR,而不是创建PDF。

我会警告你:任何值得使用的OCR引擎都会花费你很多钱。免费和/或开源的通常是宠物项目,某些算法或其他算法的概念证明。不适合现实世界的OCR应用程序。 Tesseract可能是最好的,但即便如此,其准确性远远超过商用引擎。

我们有一个商业OCR应用程序,我在评估引擎时一直沿着这条路走下去 - 我建议你咬紧牙关,联系引擎供应商并获得报价:Abbyy(最准确,最贵,更慢),Expervision(快速,不准确,中间道路价格),Nuance(道路中间速度,准确性和价格)。这些都不是用Java编写的,因此您应该花一些时间围绕其API开发JNI代码。

祝你好运 - 这是一个很大的项目!

答案 1 :(得分:2)

楔形文字是免费且易于使用的,它将以特定格式输出,然后可以使用hocr2pdf工具在PDF上生成不可见的文本图层,这是ExactImage的一部分。