java - 开源OCR

时间：2011-03-01 07:55:34

标签： java ruby linux pdf ocr

我正在寻找一个在Linux上运行的开源OCR库。我需要这个适用于PNG和PDF。大多数情况下，我想从java或ruby接口这个库。知道是否有可用的东西？

问候。

答案 0 :(得分：12)

该项目由惠普实验室推出，现在由谷歌继续赞助（Google Books！）。它是在Apache许可下发布的，它在Linux上运行。它使用Tiff或PNG文件;对于PDF，您需要转换为这些格式之一。我想没有绑定所以你应该把这个软件作为子程序调用......

答案 1 :(得分：1)

Cuneiform是免费的，并且做得不错。您可以将其作为子程序调用，但我知道没有语言绑定。它不会直接读取PDF，但您可以轻松拆分作为扫描图像序列的PDF，将它们送到Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的PDF格式。

答案 2 :(得分：0)

尝试tesjeract，它使用JNI调用Tesseract OCR API。

对于PDF，您需要先使用GhostScript将它们转换为图像。