web-crawler - 为什么Google抓取工具没有被CAPTCHA阻止？ - Thinbug

为什么Google抓取工具没有被CAPTCHA阻止？

时间：2012-08-17 16:25:10

标签： web-crawler

我在某个特定网站www.example.com上运行我的抓取工具。大约100个条目后，爬虫被CAPTCHA阻止。另一方面，当我进入Google并搜索site:www.example.com时，我发现了100,000个搜索结果，并且Google会正确缓存结果。

我的问题：Google僵尸程序是如何被阻止的，我是谁？是因为Google使用了数以千计的不同IP还是其他一些技巧？

1 个答案:

答案 0 :(得分：0)

一般来说，网站所有者有兴趣从搜索引擎获取流量，因此他们甚至可以将Google列入白名单。

顺便问一下，你在查询之间使用超时吗？如果您经常查询，则可能会因为您为服务器创建过多负载而被阻止。