Robots.txt:允许除根目录之外的所有内容

时间:2015-11-18 14:37:34

标签: robots.txt google-webmaster-tools

我的网站有http://domain.com/blog作为根目录,而http://domain.com的所有流量都会重定向到http://domain.com/blog

当我访问Google并执行site:domain.com时,这会导致问题,我看到根目录中标题为页面上的第一篇文章。如何阻止根被抓取,从而不会出现在搜索中?

在网站管理员工具中,我将该网站添加为http://domain.com,但我只在/ blog目录和其他静态网页上获取谷歌。这是对的吗?

我通常知道如何做到这一点,但这次网站有一个子目录作为预期的根目录,所以它有点不同。

有人可以验证这是否符合我的要求吗?

User-agent: *
Allow: /$
Disallow: /

1 个答案:

答案 0 :(得分:1)

Robots.txt不会阻止抓取工具抓取某些网页。 Robots.txt只是一个文本文件,其中包含一组指导原则,您要求抓取工具跟踪它并不会随时阻止抓取工具。如果您想阻止某个网页被抓取/访问 - 那么您必须阻止对该页面的所有访问,这包括不是抓取工具的其他用户。但是既然你已经让它重定向我就没有看到任何问题。 此外,$不是统一标准,也不是允许(技术上)。尽量让它专注于特定的机器人。 Google和Bing认可了Allow关键字,但许多其他机器人却没有。

您当前的robots.txt也说明了这一点:不要抓取任何网页,而是抓取根

我建议您将此作为robots.txt

User-agent: *
Disallow: /

User-agent: googlebot
Disallow: /$

这告诉所有其他机器人,但Google不会抓取您的网页。它告诉谷歌抓取工具不要在root用户中抓取,但其他一切都是允许的。