robots.txt - 如何覆盖子文件夹中的机器人 - Thinbug

如何覆盖子文件夹中的机器人

时间：2013-10-21 11:40:08

标签： robots.txt

我有一个子域用于测试目的。我已将robots.txt设置为禁止此文件夹。

部分结果仍然出于某种原因。我想这可能是因为我原本没有设置robots.txt而谷歌还没有删除其中一些。

现在我担心此文件夹中各个joomla网站中的robots.txt文件会导致Google继续为其编制索引。理想情况下，我想阻止这种情况发生，因为我不想记得将robots.txt转回来，以便在它们上线时（以防万一）。

有没有办法在此文件夹上方的文件夹中使用robots.txt显式覆盖这些内容？

1 个答案:

答案 0 :(得分：1)

就抓取工具而言，robots.txt仅存在于网站根目录中的。没有robots.txt文件层次结构的概念。

因此，如果您有http://example.com和http://foo.example.com，则需要两个不同的robots.txt文件：一个用于example.com，另一个用于foo.example.com。当Googlebot读取foo.example.com的robots.txt文件时，它不会考虑example.com的robots.txt。

当Google僵尸程序正在抓取example.com时，在任何情况下都不会解释foo.example.com的robots.txt文件。当它爬行foo.example.com时，它不会解释example.com的robots.txt。

这会回答你的问题吗？

更多信息

当Googlebot抓取foo.com时，它会读取foo.com/robots.txt并使用该文件中的规则。它不会阅读并遵循foo.com/portfolio/robots.txt或foo.com/portfolio/mydummysite.com/robots.txt中的规则。请参阅原始答案的前两句。

我并不完全明白您要阻止的内容，可能是因为我不完全了解您的网站层次结构。但您无法通过更改foo.com/robots.txt或foo.com/portfolio/robots.txt上的robots.txt文件来更改mydummysite.com上的爬虫行为。