Nutch没有抓取seed.txt中的所有网址

时间:2012-10-25 07:06:38

标签: solr nutch

我是Nutch和Solr的新手。目前我想抓取一个网站,其内容是

由ASP生成。由于内容不是静态的,我创建了一个seed.txt

包含我要抓取的所有网址。例如:

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt有这个过滤器:

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用此命令开始抓取:

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt内容包含40,000多个网址。但是,我发现很多网址内容都不是

能够被Solr找到。

问题:

  1. 这种方法适用于大型seed.txt吗?

  2. 如何查看正在抓取的网址?

  3. seed.txt是否有尺寸限制?

  4. 谢谢!

2 个答案:

答案 0 :(得分:4)

在nutch配置文件中查看属性db.max.outlinks.per.page 此属性的默认值为100,因此只会从seeds.txt中提取100个网址,其余部分将被跳过。
将此值更改为更高的数字,以便扫描和索引所有网址。

答案 1 :(得分:0)

topN表示应该提取多少生成的链接。您可以生成100个已生成的链接,但如果将topN设置为12,则只会获取,解析和索引这些链接中的12个。