我应该阻止机器人*?

时间:2010-07-30 11:21:20

标签: .htaccess spam bots robot

本月28日,我们其中一个网站的带宽严重受损。 cpanel只跟踪每日访问日志并且没有归档它们(现在就是这样),使用aw stats我发现我们的机器人流量如下:

未知机器人(由'bot *'标识)91541 + 417 4.78 GB 2010年7月28日 - 07:12

我使用htaccess阻止了僵尸*:

  

RewriteCond%{HTTP_USER_AGENT} ^ bot * [NC]
  RewriteRule。* - [F,L]

我被告知这会干扰交通,我该怎么办?我应该等待它再次发生,然后检查IP /代理名称的日志还是继续阻止未知的机器人?

我对googlebot条目进行了dns查找,我们检查了一下。

1 个答案:

答案 0 :(得分:2)

您应该使用Robots Exclusion Order。它可能不是垃圾邮件机器人,如果你在robots.txt中输入一个条目,它仍在你的网站上,那么你就会知道它是不是。

顺便说一句,googlebot是google的索引器。它将遵循robots.txt(机器人排除顺序)。它还提供webmaster tools,以便您配置Google与您的网站进行互动的方式。

你可以为错误的机器人设置一个陷阱。在您的主页上建立一个隐身的链接(通过CSS)。配置你的robots.txt以指示所有机器人忽略该链接并记录那些机器人。

如果您有防火墙或其他基础设施,请在将来使用您的网站时排除这些IP地址。