如何防止从您的网站抓取?

时间:2013-12-29 22:36:38

标签: iis web-crawler

我在IIS上运行一个网站,页面链接超过1000个页面链接,我希望通过运行爬虫脚本并逐页获取信息来阻止其他人抓取/窃取这些页面。

如果请求是用户请求还是由脚本运行,有没有办法理解请求?或者在提出要求之前,可能会在最高级别对此进行一些过滤?

1 个答案:

答案 0 :(得分:1)

您无法阻止自动抓取。

您可以更加自动地抓取您的内容,但如果您允许用户查看内容,则可以自动进行(即自动浏览器导航并不困难,计算机通常无需在请求之间等待很长时间)。

一种选择是要求单个“用户”(经过验证或不验证)在请求之间具有一些最小延迟(即1-5秒)。通过这种方式,通用爬网将无用(请求中需要一些“用户ID”,请求之间需要延迟),并且必须编写自定义爬网代码,这显然更加耗费时间。

请注意,为您的网站编写特殊的“抓取工具”可能会被视为“高贵”行为,并且会显着增加创建网站的动机(例如,查看“如何使Google地图可离线使用”)。