多个solr核心的nutch配置

时间:2016-01-22 04:09:53

标签: solr web-crawler nutch

我在Linux上使用Nutch 1.9和Solr 4.10。我需要抓取并索引大型网站的内容,并希望使用单独的Solr核心来执行此操作。以下是Nutch配置作为cronjob的一部分...

./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1
./bin/crawl conf/core1urls crawl http://solrhost:8085/solr/core1 2

我为上面提供了一分钟的cronjob。有人可以在下面帮助我......

  1. 我想了解core0 1的含义和core1 2的含义是什么意思?
  2. 我使用seed.txtconf/core0urls创建了单独的conf/core1urls个文件。这是有效的,但我希望每个核心都有单独的regex-urlfilter.txt文件,而Nutch应该检测它。请让我知道如何实现它。
  3. 如果在单个Nutch中无法实现上述目标,我应该为每个Solr核心设置单独的Nutch实例吗?

1 个答案:

答案 0 :(得分:0)

您需要创建两个nutch实例来推送到不同的solr核心(或者服务器)。问题是您要使用不同的 regex-urlfilter.txt 文件。从技术上讲,您可以使用单个nutch实例来实现,但它需要您编写大量代码。因此,最简单和最简单的方法是设置两个nutch实例。

关于抓取命令参数,

./bin/crawl conf/core0urls crawl http://solrhost:8085/solr/core0 1

此处的 1 值仅表示 core0urls 中的抓取网址。不要转到第二个深度并抓取第一次抓取生成的网址。基本上,你正在吃午饭。