solr - 简单的Nutch 1.3 / Solr索引解释

时间：2011-09-14 21:04:07

标签： solr nutch

经过多次搜索，似乎没有任何关于如何将Nutch 1.3与Solr一起使用的直接解释。

我有一个Solr索引，其中包含其他内容，我将在网站上进行搜索。

我想将Nutch结果添加到索引中，这会将外部网站添加到网站的搜索中。

所有这一切都很好。

问题是，你如何刷新指数？你必须首先删除Solr的所有Nutch结果吗？或者Nutch会照顾到这个吗？ Nutch是否会从Solr索引中删除不再有效的结果？

没有文档或解释他们正在做什么的Shell脚本对回答这些问题没有帮助。

答案 0 :(得分：0)

nutch模式将id（= url）定义为teh唯一键。如果你重新抓取url，当nutch将数据发布到solr时，文档将被替换为solr索引。

答案 1 :(得分：0)

你需要在Nutch中实现增量爬行......这取决于你的应用程序。有些人希望每天重新抓取，其他人每3个月重新抓一次。无论如何，最长为90天。

一般的想法是删除早于重新抓取的最长时间的抓取细分，因为那时它们将是多余的。并生成一个新的solrindex用于Solr。

我担心你必须自己编写脚本。有一天，我可能会在wiki上添加一些我为此做过的脚本，但是它们还没有准备好发布。

答案 2 :(得分：-1)

尝试使用Lucidworks的企业级Solr进行测试/原型设计，其中内置了一个webcrawler。

它会让你感受整个Lucene堆栈。它比我用过的任何其他Java软件都有更好的界面。使用起来很愉快。