禁止在robots.txt中使用某个网址

时间:2010-05-17 10:08:07

标签: robots.txt

我们在网站上实施了一个评级系统,其中包含指向脚本的链接。然而,由于网站上的绝大多数评级为3/5,评级甚至超过1-5,我们开始怀疑搜索引擎爬虫等正在通过。使用的网址如下所示:

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

当我们开始时,我们将以下内容添加到robots.txt:

User-agent: *
Disallow: /rate

这是不正确的还是googlebot而其他人只是忽略了我们的robots.txt?

3 个答案:

答案 0 :(得分:6)

您应该将POST用于更改内容的操作,因为搜索引擎通常不会提交表单。此外,这将阻止以递归方式(例如使用wget)下载您的网站的用户提交大量投票。

根据您的网站,通过javascript处理投票也可能是一种解决方案。

关于你的robots.txt: 它必须位于根路径中 - 即http://www.thesite.com/robots.txt - 如果您的评分系统处于/ blah / rate,则需要使用Disallow: /blah/rate代替Disallow: /rate

答案 1 :(得分:0)

User-agent: *
Disallow: /path/to/the/page/rate

您必须使用完整路径。

可能想稍微阅读一下:http://www.javascriptkit.com/howto/robots.shtml

答案 2 :(得分:0)

对我来说不正确。您只是不允许访问http://www.thesite.com/rate(及其下面的页面IIRC)。另外一些抓取工具会忽略robots.txt

最好这样做,以便只响应POST而不是GET来改变评级。搜索引擎从不使用POST。