我们在网站上实施了一个评级系统,其中包含指向脚本的链接。然而,由于网站上的绝大多数评级为3/5,评级甚至超过1-5,我们开始怀疑搜索引擎爬虫等正在通过。使用的网址如下所示:
http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3
当我们开始时,我们将以下内容添加到robots.txt:
User-agent: *
Disallow: /rate
这是不正确的还是googlebot而其他人只是忽略了我们的robots.txt?
答案 0 :(得分:6)
您应该将POST用于更改内容的操作,因为搜索引擎通常不会提交表单。此外,这将阻止以递归方式(例如使用wget)下载您的网站的用户提交大量投票。
根据您的网站,通过javascript处理投票也可能是一种解决方案。
关于你的robots.txt:
它必须位于根路径中 - 即http://www.thesite.com/robots.txt - 如果您的评分系统处于/ blah / rate,则需要使用Disallow: /blah/rate
代替Disallow: /rate
答案 1 :(得分:0)
User-agent: *
Disallow: /path/to/the/page/rate
您必须使用完整路径。
答案 2 :(得分:0)
对我来说不正确。您只是不允许访问http://www.thesite.com/rate
(及其下面的页面IIRC)。另外一些抓取工具会忽略robots.txt
!
最好这样做,以便只响应POST而不是GET来改变评级。搜索引擎从不使用POST。