html - 下载HTML页面的网页爬虫是什么？ - Thinbug

下载HTML页面的网页爬虫是什么？

时间：2011-10-18 15:25:05

标签： html web-crawler

我正在寻找一个网页抓取工具/蜘蛛来下载单个网页。有什么好的（最好是免费的）产品支持这个？

4 个答案:

答案 0 :(得分：7)

想到了{p> wget或curl。你的要求到底是什么？您是否需要递归抓取页面，或只下载特定的URL？ wget可以做到这两点。

答案 1 :(得分：0)

我会去WGET www.gnu.org/s/wget /

答案 2 :(得分：0)

如果您想下载漏洞网站，请尝试wget。它具有递归下载的功能。如果您需要操作标题并且只下载一些小文件，请尝试curl（或wget）。如果您需要并行下载大文件等功能，我建议aria2。

答案 3 :(得分：0)

开源抓取工具列表：http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers