PDF to Solr如何为PDF的段落建立索引

时间:2018-07-16 11:47:33

标签: solr

我正在与Solr合作,并且试图找出如何对一堆PDF文件以及特定的摄取段落建立索引。 我的PDF包含以下段落:

  

测试(某些测试)->该段落的标题

     

某些文本->该段落的文本

我需要实现的是,当我向Solr进行搜索时,我应该看到一个结果,该段落的标题和与之相关的文本。

例如,我将搜索“关键字”,结果将是该关键字:

  

你好(关键字)

     

段落全文

我需要帮助,因为我不知道该怎么做。 我想知道是否应该使用某些外部工具,或者需要在Solr中进行哪些修改才能获得结果。

1 个答案:

答案 0 :(得分:0)

您绝对需要进行外部工作,如果仅使用solr,它将把提取的所有文本捆绑到同一字段中,而您不希望这样做。因此,您必须使用Apache Tika / pdfbox或其他库来提取文本(将标题和正文分开),并将它们编入不同的字段。

这将使indeixng流程更具弹性,因为对于大型索引工作,建议不要在Solr中使用内置的Tika代码。