将大型pdf文件索引到SOLR中

时间:2015-09-23 08:31:30

标签: solr

我正在将一个大型pdf文件索引到SOLR中。 对于文本提取,我使用apache TIKA和SOLRJ发布文件。 我目前的方法是将每个页面拆分为单独的文件,然后提取(使用apache TIKA)然后发布(使用SOLRJ)。 要在UI(自定义UI)上访问此信息,我需要有一个字段 -

" url = http://localhost:8080/data/apache-solr-ref-guide-5.1.pdf#page=3" 正如你在这里看到的那样,我正在为上面提到的url部分捕获每个页面的页码。这对我来说很容易,因为我将整个文件分成多个文件。 到目前为止一切正常。

但现在我的要求是消除将文件拆分成多个文件的过程。我的意思是,我想要提取完整的文件而不分成部分,同时在SOLR中它应该存储为不同的页面,这样我可以区分每个页面以创建URL。

请你告诉我怎么做。?

1 个答案:

答案 0 :(得分:2)

您可以将所有内容集成到一个代码库中并减少图层。

所以,直接从SolrJ使用PDFBox并逐个提取,然后将其提供给Solr。

我还将研究创建父/子记录,其中子记录表示每个页面,父表示整个文档。这为您提供了更强大的搜索选项。