Question

我们在网站上实施了一个评级系统，其中包含指向脚本的链接。然而，由于网站上的绝大多数评级为3/5，评级甚至超过1-5，我们开始怀疑搜索引擎爬虫等正在通过。使用的网址如下所示：

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

当我们开始时，我们将以下内容添加到robots.txt：

User-agent: *
Disallow: /rate

这是不正确的还是googlebot而其他人只是忽略了我们的robots.txt？

Answer 1

您应该将POST用于更改内容的操作，因为搜索引擎通常不会提交表单。此外，这将阻止以递归方式（例如使用wget）下载您的网站的用户提交大量投票。

根据您的网站，通过javascript处理投票也可能是一种解决方案。

关于你的robots.txt：它必须位于根路径中 - 即http://www.thesite.com/robots.txt - 如果您的评分系统处于/ blah / rate，则需要使用Disallow: /blah/rate代替Disallow: /rate

Answer 2

User-agent: *
Disallow: /path/to/the/page/rate

您必须使用完整路径。

Answer 3

对我来说不正确。您只是不允许访问http://www.thesite.com/rate（及其下面的页面IIRC）。另外一些抓取工具会忽略robots.txt！

最好这样做，以便只响应POST而不是GET来改变评级。搜索引擎从不使用POST。