从PDF中提取图像中的文本

时间:2015-08-18 19:10:43

标签: java pdf itext ocr pdfbox

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。

我想要做的是从此PDF中提取文本。这不是第一代" pdf,因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。

PDFBox的iText中是否有功能可以检索此数据?如果可能的话,我试图避免在图像上进行OCR。我希望在IText或PDFBox中有一些东西可以做到这一点。

请注意,我不是在谈论提取"正常"文本形成pdf,如下所述:How to get raw text from pdf file using java

1 个答案:

答案 0 :(得分:2)

好的,看了一下之后,似乎没有办法专门用iText或PDFBox做这个,但看起来像PDFBox确实有第三方软件插件可以完成你需要的东西。如果感兴趣,链接为herehere,来自here(来自@TilmanHausherr)。