网站内容抓取

时间:2010-05-13 19:18:58

标签: screen-scraping bots

我们在IIS 6 Windows 2003上托管了一个业务列表目录。我们的竞争对手抓取并窃取了我们的内容和客户。

我们尝试使用蜜罐网址和日志解析进行IP阻止,但没有取得多大成功。是否有人知道我可以在我的Web服务器前运行的网络设备或代理服务器,以最大限度地减少此问题?

所有建议都受到高度赞赏。

2 个答案:

答案 0 :(得分:1)

您可以尝试spider trap,但他们可以添加一个检查。

你也可以添加一个速率限制器,并在一定的速率后迫使他们解决一个CAPTCHA,但你也可能会惹恼你的普通用户。

但实际上,你创造的任何东西都可能适应和解决。你最好的可能就是开发者艺术所说的,并找一位律师。

答案 1 :(得分:0)

如果有很多页面的数据,您可以监控访问者的IP,并确保给定的IP每天只能看到您网页的一小部分。

最终你想要的是一个矛盾:你希望人们将它下载到他们的计算机上(现在查看);但是希望他们将其下载到他们的计算机上(以后再查看)。