Google缓存页面的延迟延迟

时间:2016-04-13 15:43:56

标签: python web-scraping web-crawler

我正在尝试下载仍由Google缓存的离线网站。我在Python中构建了一个脚本,它根据txt文件中的链接列表完成工作。问题是谷歌在下载了大约30页之后禁止了我的IP。无法弄清楚为什么,因为我在两次下载之间等待10-60秒的随机时间:

    sleep_time = randint(10,60)
    sleep(sleep_time)

我还为urllib2使用了不同的用户代理(我使用了http://whatsmyuseragent.com上看到的用户代理)。

为什么谷歌会一直禁止我,以及为什么如果我的时间完全是“人类”,他会发现我?

0 个答案:

没有答案
相关问题