如何从任何网站批量提取页面URL?

时间:2014-04-25 23:44:24

标签: web-scraping screen-scraping scraper extractor

我正在寻找一个免费的解决方案/工具/软件,通过它我可以提取所有网站的网页网址。网站有大约992,000页,所以我需要excel表中的所有网址。

我正在使用“ site:mywebsite.com ”,它为我提供了992,000个结果。我知道我可以在每页100的最大结果,但这仍然不会让我的生活更轻松。此外,Google不会显示超过1000的任何结果。尝试使用 Google API ,但没有任何运气。尝试站点地图生成器,但它们也无效。

2 个答案:

答案 0 :(得分:1)

您可以使用抓取工具抓取整个网站并保存访问过的网址。免费工具包括:

答案 1 :(得分:0)

Google将搜索查询结果限制为1000.工具真正绕过此功能的唯一方法是执行关键字的子集,例如(网站:abc.com + random-word)。随机单词将返回较少的结果,并且有足够的这些查询被抓取并组合成一个列表,然后可以删除重复项并获得原始所需搜索项的近乎完整列表。