特定页面上的抓取和索引特定链接

时间:2013-12-13 06:30:04

标签: regex url solr nutch

我是nutch的新手,所以我只是开始使用。我想抓取一个特定的页面,在该页面下,我想抓取特定的链接。

例如

我只想抓取http://nutch.apache.org/downloads.html

在此页面下我只想抓取只说* .txt链接。现在它们可以是活动链接,例如< a>< / a>或者它们可以嵌入到某些div中,就像我们在各种论坛中看到的那样,文件上传/下载网站的链接被粘贴/嵌入到某些div中,例如http://example.com/movie_abcd/firstpart.avi

在这里,我只想抓取以.avi结尾的链接。我只是与regex-urlfilter混淆,因为到现在为止我只使用它而且我不熟悉其他url过滤器这样的前缀和后缀urls过滤器。它们也是在我的问题的解决方案中发挥重要作用,如果他们做了他们的目的。我在过去几天在互联网上搜索适当的nutch教程,但找不到任何这样的。如何实现这一目标。另外任何人都可以推荐给我一本关于nutch ans solr的好书,它有全面的实际工作实例和关于它们及其方法的描述。

我将好奇地等待答案。

由于

1 个答案:

答案 0 :(得分:0)

查看我的帖子,如果您有任何问题,请在底部发表评论,我会尽力帮助您。

Solr Tutorial

Nutch Tutorial