有人在robots.txt上使用我们的网站

时间:2014-12-02 11:29:15

标签: magento web directory robots.txt

几周前,我们发现有人使用robots.txt目录访问我们的网站: http://www.ourdomain.com/robots.txt
我一直在做一些研究,它说robots.txt是我们搜索引擎的权限吗? 我不确定......
我之所以这样问是因为他今天要再次进入该文件...... 问题是我们的网站上没有此文件...那么为什么有人试图访问该文件?危险吗?我们应该担心吗? 我们已经跟踪了IP地址,它说位置在德克萨斯州,几周前,它在委内瑞拉......他是否使用VPN?这是机器人吗?

有人可以解释这个文件的作用以及他试图访问它的原因吗?

1 个答案:

答案 0 :(得分:1)

在robots.txt(简单文本文件)中,您可以指定机器人不应抓取您网站的哪些网址(例如搜索引擎抓取工具)。

此文件的位置已修复,因此机器人始终知道在何处查找规则:名为robots.txt的文件必须放在主机的文档根目录中。例如,当您的网站为http://example.com/blog时,必须可以从http://example.com/robots.txt访问robots.txt。

礼貌机器人会在尝试访问您的网页之前检查此文件;不礼貌的机器人会忽视它。

如果您没有提供robots.txt,礼貌机器人会认为他们可以抓取所有内容。要摆脱404s,请使用此robots.txt(说明相同:允许所有机器人抓取所有内容):

User-agent: *
Disallow: