regex - 特定页面上的抓取和索引特定链接

我是nutch的新手，所以我只是开始使用。我想抓取一个特定的页面，在该页面下，我想抓取特定的链接。

例如

我只想抓取http://nutch.apache.org/downloads.html

在此页面下我只想抓取只说* .txt链接。现在它们可以是活动链接，例如＆lt; a＆gt;＆lt; / a＆gt;或者它们可以嵌入到某些div中，就像我们在各种论坛中看到的那样，文件上传/下载网站的链接被粘贴/嵌入到某些div中，例如http://example.com/movie_abcd/firstpart.avi

在这里，我只想抓取以.avi结尾的链接。我只是与regex-urlfilter混淆，因为到现在为止我只使用它而且我不熟悉其他url过滤器这样的前缀和后缀urls过滤器。它们也是在我的问题的解决方案中发挥重要作用，如果他们做了他们的目的。我在过去几天在互联网上搜索适当的nutch教程，但找不到任何这样的。如何实现这一目标。另外任何人都可以推荐给我一本关于nutch ans solr的好书，它有全面的实际工作实例和关于它们及其方法的描述。

我将好奇地等待答案。

由于

特定页面上的抓取和索引特定链接

1 个答案: