如何通过指定深度来抓取网站

时间:2014-08-01 06:10:43

标签: solr nutch web-crawler

我正在使用nutch 2.x.所以我试图使用带有深度选项的nutch命令作为

$:nutch inject ./urls/seed.txt -depth 5

执行此命令后获取

之类的消息

无法识别的arg -depth

所以当我在这里失败时,我试图使用nutch crawl作为

$:nutch crawl ./urls/seed.txt -depth 5

得到错误

不推荐使用命令抓取,请改用bin / crawl

所以我尝试使用crawl命令在seed.txt中使用深度选项抓取网址,在这种情况下,它要求solr但我不使用solr

所以我的问题是如何通过指定深度来抓取网站

1 个答案:

答案 0 :(得分:1)

我的问题是你想通过抓取页面而不是在SOLR中将其编入索引来做什么?

回答你的问题:

如果您想使用Nutch Crawler并且您不想将其索引到SOLR中,请从抓取脚本中删除以下代码。

http://technical-fundas.blogspot.com/2014/07/crawl-your-website-using-nutch-crawler.html

回答你的其他问题:

如何获取Nutch抓取的所有链接的HTML内容(请点击此链接):

How to get the html content from nutch

这肯定会解决您的问题。