谷歌网站刮痧几次请求后被阻止

时间:2014-06-20 18:10:50

标签: web-services google-app-engine google-apps

我们正在开发一个简单的应用程序,通过url / image上传图像并获取图像的实体名称来调用Google的一项服务(反向图像搜索http://www.google.com/insidesearch/features/images/searchbyimage.html)。基本上,我们得到了Google返回的结果页面(如html),并使用简单的解析器来抓取结果。

我们在谷歌应用引擎上托管了这个,发现谷歌在一段时间后阻止了我们的应用程序(由IP识别),并发出一条消息说它是为了防止机器人向其网站发送请求。以下是我在网络服务器日志中找到的消息:

  

当Google自动检测到来自您的计算机网络的请求时,会显示此页面,该请求似乎违反了http://www.google.com/policies/terms/">服务条款。该阻止将在这些请求停止后不久到期。在此期间,解决上述CAPTCHA将允许您继续使用我们的服务。

此流量可能是由恶意软件,浏览器插件或发送自动请求的脚本发送的。如果您共享网络连接,请向管理员寻求帮助 - 使用相同IP地址的其他计算机可能负责。 http://support.google.com/websearch/answer/86640">了解详情

如果您使用机器人已知的高级术语,有时可能会要求您解决验证码问题使用或快速发送请求。

我想检查是否有办法解决此问题或任何解决方法等。由于Google没有公开任何反向图片搜索API,我们看不到任何其他方式(除了创建一个http请求并抓取响应)以获取我们想要的信息。

任何线索都会有所帮助。

1 个答案:

答案 0 :(得分:2)

如果您违反了服务条款,就是这样。任何“解决方法”都是不合适的。

此服务完全相同,并且有合法使用的API:http://services.tineye.com/TinEyeAPI

  

什么是TinEye API? TinEye是一个反向图像搜索引擎。您可以   提交图像TinEye,以了解它来自哪里,它是怎样的   正在使用或存在图像的修改版本。 TinEye使用   图像识别以执行其搜索。 TinEye API允许a   用户自动搜索数十亿的TinEye图像索引。