为什么Google抓取工具没有被CAPTCHA阻止?

时间:2012-08-17 16:25:10

标签: web-crawler

我在某个特定网站www.example.com上运行我的抓取工具。大约100个条目后,爬虫被CAPTCHA阻止。另一方面,当我进入Google并搜索site:www.example.com时,我发现了100,000个搜索结果,并且Google会正确缓存结果。

我的问题:Google僵尸程序是如何被阻止的,我是谁?是因为Google使用了数以千计的不同IP还是其他一些技巧?

1 个答案:

答案 0 :(得分:0)

一般来说,网站所有者有兴趣从搜索引擎获取流量,因此他们甚至可以将Google列入白名单。

顺便问一下,你在查询之间使用超时吗?如果您经常查询,则可能会因为您为服务器创建过多负载而被阻止。

相关问题