将Nutch正则表达式文件分离以爬网并索引到多个Solr核心

时间:2013-05-23 13:34:39

标签: solr nutch solr4

我的设置是:Ubuntu Server 12.04 LTS上的Nutch 1.6和Solr 4.3.0

我需要抓取并索引大型网站的内容,并且希望使用单独的核心进行此操作。

我已经配置了Solr并以这种方式启动它:

java -Dsolr.solr.home=multicore -jar start.jar

然后我配置并启动了Nutch两次,每个源urls文件夹和索引目标(core0,core1)一个:

bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000

结果很完美但是,为了过滤掉不需要的URL模式,我不得不在regex-urlfilter.txt文件中指定一些正则表达式。 由于这两个爬行会话的正则表达式设置不同,我必须在运行第二次爬网之前编辑regex-urlfilter.txt文件。

问题:有没有办法准备两个单独的regex-urlfilter.txt文件,并在每个/ bin / nutch命令行上指定正确的文件?

请考虑我开始使用2个网址集和核心进行实验性配置,但是我必须配置至少5个并且它们应该配置为自动重新抓取而不需要手动编辑会话....

1 个答案:

答案 0 :(得分:2)

你可以尝试将多个正则表达式文件和主文件作为链接,然后在开始nutch索引之前重新指向它