从Lucene Index更新Solr

时间:2012-03-27 13:09:23

标签: solr lucene indexing heritrix

我目前正在开展网络存档项目。基本上,我们尝试做的是归档一组网站(使用 heritrix crawler ),并通过Web界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。目前,索引是使用 nutchwax (由 heritrix 生成的定制版本的apache Nutch,为索引.warc文件量身定制)生成的。 Nutchwax转储出Lucene索引并在Solr中使用它,所有必须做的就是生成一个正确的模式。

这一切都已完成并且它的运行应该如此,但归档不是静态的,并且定期生成新的.warc文件。

我现在可以做的是生成一个新索引,将其与现有索引合并,然后将其导入Solr。但是,要做到这一点,Solr必须重新启动。 如果索引可以“动态”更新会很好,因为通常就是这种情况(通过http请求更新索引时)

有没有人有这个想法,怎么做?我的第一个镜头是从Lucene索引文件生成.xml文件并将它们发布到Solr。这值得一试还是有更优雅的解决方案?

1 个答案:

答案 0 :(得分:1)

您可以利用多个核心来完成您的需求。有关详细信息,请参阅Solr Wiki - CoreAdmin。我认为您可以利用MergeIndexes功能或Swap内核的功能,在您的方案中获得更好的体验。