crawler4j在不抓取整个网站的情况下抓取网址列表

时间:2012-08-10 12:38:55

标签: crawler4j

我有一个需要抓取的网址列表。是否可以仅抓取网页列表而不进行深度抓取。如果我将网址添加为种子,则会以完整深度抓取整个网站。

1 个答案:

答案 0 :(得分:2)

要仅抓取您作为种子添加的页面,请将MaxDepthOfCrawling设置为0.

CrawlConfig config = new CrawlConfig();
config.setMaxDepthOfCrawling(0);
PageFetcher pageFetcher = new PageFetcher(config);