solr - 如何通过指定深度来抓取网站

时间：2014-08-01 06:10:43

标签： solr nutch web-crawler

我正在使用nutch 2.x.所以我试图使用带有深度选项的nutch命令作为

$：nutch inject ./urls/seed.txt -depth 5

执行此命令后获取

之类的消息

无法识别的arg -depth

所以当我在这里失败时，我试图使用nutch crawl作为

$：nutch crawl ./urls/seed.txt -depth 5

得到错误

不推荐使用命令抓取，请改用bin / crawl

所以我尝试使用crawl命令在seed.txt中使用深度选项抓取网址，在这种情况下，它要求solr但我不使用solr

所以我的问题是如何通过指定深度来抓取网站

答案 0 :(得分：1)

我的问题是你想通过抓取页面而不是在SOLR中将其编入索引来做什么？

回答你的问题：

如果您想使用Nutch Crawler并且您不想将其索引到SOLR中，请从抓取脚本中删除以下代码。

回答你的其他问题：

如何获取Nutch抓取的所有链接的HTML内容（请点击此链接）：

这肯定会解决您的问题。