如何从Solr下载索引文档?

时间:2015-10-14 11:25:07

标签: solr solrj

我可以使用Solr索引文档(Word,PDF)。是否有可能获得原始文件?我假设不,因为Solr只存储一个索引 - 但如果我错了,你可以纠正我吗?

如果不是 - 通常如何解决(我的意思是检索原始文档?)将它们存储在单独的存储中?

1 个答案:

答案 0 :(得分:2)

@Alec 你的理解是正确的。 您无法取回原始文件。因此,您可以选择单独存储原始文档,在主数据存储中生成唯一ID,并将该唯一ID链接到文档的SOLR导出,以便链接回搜索结果。 事实上,SOLR专为搜索速度而设计,并不像RDBMS那样具有事务友好性。 所以在我的项目中,我使用这种策略来维护备用数据存储区作为所有应用程序数据(不仅仅是文档)的权威来源。

为了对文档处理的内部进行一些介绍,我建议您查看Solr Wiki https://wiki.apache.org/solr/ExtractingRequestHandler上的示例。

此处记录了更多更新版本 https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

文档说 Solr的ExtractingRequestHandler使用Tika允许用户将二进制文件上传到Solr并让Solr从中提取文本然后将其编入索引。

这意味着只有提取的文本实际存储在SOLR中。原始二进制内容并不真正用于搜索/索引目的的SOLR(并且可能被丢弃,尽管我还没有找到确切的文本说它们丢弃了这样提取的文档的原始二进制内容)。

相关问题