Solr和nutch。如何保存种子?

时间:2014-10-14 01:12:25

标签: solr web-crawler config nutch

您好我遵循了本教程

http://wiki.apache.org/nutch/NutchTutorial

它按预期工作。

如何将已爬网页面的种子保存到solr?

我希望能够向solr查询单词" foobar"并获得导致包含该单词的页面的所有种子。我想我必须在schema.xml中添加一个字段,但我不知道该文件中的行应该是什么。

1 个答案:

答案 0 :(得分:0)

我不知道Nutch有什么方法可以做到这一点;您可以多次运行Nutch,每次运行时只有一个种子,并通过以下方式将种子索引为Solr中的静态字段:

<property>
        <name>index.static</name>
        <value>seedUrl:theSeedForTheCurrentNutchRun</value>
</property>

这可行,但取决于您的种子如何相互关联,您可能会花更多时间爬行(如果页面可以通过多个种子访问。同样在这种情况下,最后一个种子将是Solr中记录的种子)

相关问题