如何覆盖子文件夹中的机器人

时间:2013-10-21 11:40:08

标签: robots.txt

我有一个子域用于测试目的。我已将robots.txt设置为禁止此文件夹。

部分结果仍然出于某种原因。我想这可能是因为我原本没有设置robots.txt而谷歌还没有删除其中一些。

现在我担心此文件夹中各个joomla网站中的robots.txt文件会导致Google继续为其编制索引。理想情况下,我想阻止这种情况发生,因为我不想记得将robots.txt转回来,以便在它们上线时(以防万一)。

有没有办法在此文件夹上方的文件夹中使用robots.txt显式覆盖这些内容?

1 个答案:

答案 0 :(得分:1)

就抓取工具而言,robots.txt仅存在于网站根目录中的 。没有robots.txt文件层次结构的概念。

因此,如果您有http://example.comhttp://foo.example.com,则需要两个不同的robots.txt文件:一个用于example.com,另一个用于foo.example.com。当Googlebot读取foo.example.com的robots.txt文件时,它不会考虑example.com的robots.txt。

当Google僵尸程序正在抓取example.com时,在任何情况下都不会解释foo.example.com的robots.txt文件。当它爬行foo.example.com时,它不会解释example.com的robots.txt。

这会回答你的问题吗?

更多信息

当Googlebot抓取foo.com时,它会读取foo.com/robots.txt并使用该文件中的规则。它不会阅读并遵循foo.com/portfolio/robots.txt或foo.com/portfolio/mydummysite.com/robots.txt中的规则。请参阅原始答案的前两句。

我并不完全明白您要阻止的内容,可能是因为我不完全了解您的网站层次结构。但您无法通过更改foo.com/robots.txt或foo.com/portfolio/robots.txt上的robots.txt文件来更改mydummysite.com上的爬虫行为。

相关问题