java - 如何从PDF图像中提取文本

时间：2018-05-12 23:00:46

标签： java pdf ocr tesseract tess4j

我想从PDF中提取包含图像的数据，图像是字母在小方框内的形式，例如requestMarketData，这里每个单词都在方框内。

我尝试过tesseract OCR无法获得理想的结果。

我尝试过商用ABBYY，但我想使用基于java的免费API。

下面是

的例子

答案 0 :(得分：1)

Nicomsoft OCR SDK是一个免费的SDK，它从我的PDF中提取了文本，结果令人满意

它支持真正的大型技术，现在我正在尝试将其集成到我的应用程序中

答案 1 :(得分：0)

就OCR免费而言，Tesseract就像它一样好。

答案 2 :(得分：0)

如果可以使用online ocr，则可以尝试free ocr.space ocr api。

这是一个使用此API的Java示例应用程序：

请注意，ocr.space api虽然好又可靠，但不如Abbyy好。 Abbyy显然是我所知道的市场上最好的OCR。没有其他ocr软件可以做到这一点。

答案 3 :(得分：0)

我不确定那里有免费的，但你绝对可以尝试TotalPDFConverterOCR

它有很多东西，比如转换为doc，图像等。