solr - 将大型pdf文件索引到SOLR中

我正在将一个大型pdf文件索引到SOLR中。对于文本提取，我使用apache TIKA和SOLRJ发布文件。我目前的方法是将每个页面拆分为单独的文件，然后提取（使用apache TIKA）然后发布（使用SOLRJ）。要在UI（自定义UI）上访问此信息，我需要有一个字段 -

＆＃34; url = http://localhost:8080/data/apache-solr-ref-guide-5.1.pdf#page=3＆＃34; 正如你在这里看到的那样，我正在为上面提到的url部分捕获每个页面的页码。这对我来说很容易，因为我将整个文件分成多个文件。到目前为止一切正常。

但现在我的要求是消除将文件拆分成多个文件的过程。我的意思是，我想要提取完整的文件而不分成部分，同时在SOLR中它应该存储为不同的页面，这样我可以区分每个页面以创建URL。

请你告诉我怎么做。？

将大型pdf文件索引到SOLR中

1 个答案: