Question

我是Nutch和Solr的新手。目前我想抓取一个网站，其内容是

由ASP生成。由于内容不是静态的，我创建了一个seed.txt

包含我要抓取的所有网址。例如：

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt有这个过滤器：

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用此命令开始抓取：

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt内容包含40,000多个网址。但是，我发现很多网址内容都不是

能够被Solr找到。

问题：

谢谢！

Answer 1

在nutch配置文件中查看属性db.max.outlinks.per.page 此属性的默认值为100，因此只会从seeds.txt中提取100个网址，其余部分将被跳过。
将此值更改为更高的数字，以便扫描和索引所有网址。

Answer 2

topN表示应该提取多少生成的链接。您可以生成100个已生成的链接，但如果将topN设置为12，则只会获取，解析和索引这些链接中的12个。