在PDF文件中搜索文本

时间:2013-05-13 09:25:11

标签: java itext pdfbox

我有一个关于(86字)和一些PDF文件的单词列表。 我想在PDF文件中搜索这些单词,并返回值告诉我是否存在。

在研究教程中的解决方案时,我遇到了两个问题:

  1. 是我被迫将pdf文件转换为文件??

  2. 什么是简单的bibilotheque,让我能够实现我的问题,因为我真的坚持它有很多例子(pdfbox,Appach Lucense,iText,pdftron ....)

    < / LI>

1 个答案:

答案 0 :(得分:2)

  

是我被迫将pdf文件转换为文件

PDF文件是一个文件。所以,你不必转换它。你必须能够阅读它。您可以使用一个可用的java PDF解析器(例如,如您所述的pdfbox)。

  

什么是简单的bibilotheque,让我能够实现我的问题...

只要您只有86个单词和一个文档,您可能不需要像Lucene这样的索引工具。但是,如果您想构建支持不同目标和不同文档的应用程序(特别是如果您需要真正的自由文本搜索),您可能需要Lucene(或Solr)首先执行文档索引,然后执行使用索引进行搜索。