regex - nutch正则表达式，如何实现爬行策略

我尝试在regex-urlfilter.txt文件中的nutch 1.8环境中建立以下爬行行为：

第一：在seed.txt文件中定义的站点的抓取起始页（www.domainname.com）。第二：此外，仅从起始页面链接两个特定目录“directoryname1”（www.domainname.com/directoryname1 / ...）和“directoryname2”（www.domainname.com/directoryname2 / ...）的抓取页面，并忽略其他所有内容

到目前为止，我尝试的过滤器过于笼统，爬虫爬行了起始页面和所有其他目录（不仅是目录1和2），或者过于严格，因此爬虫根本没有启动（如seed-URL与目录的urlfilter的正则表达式不匹配。

感谢您的帮助克里斯

nutch正则表达式，如何实现爬行策略

1 个答案: