控制搜索引擎索引删除

时间:2015-06-30 21:56:29

标签: search-engine noindex

我的网站有一些特定页面:

  1. 已在搜索引擎中编入索引,但我想将其从索引中删除。
  2. 很多,因为它们是动态的(基于查询字符串)。
  3. 有点“沉重”。 (一个过度热心的机器人可能比我想要的服务器更紧张。)
  4. 由于#2,我只是让他们自然地慢慢移除,但我需要解决一个计划。

    我开始时做了以下事情:

    1. Bots:在应用程序中使用用户代理检测中止执行,并发送基本空白的响应。 (我不介意是否有一些机器人可以通过并呈现真实的页面,但我只是阻止了一些常见的机器人。)
    2. Bots:抛出403(禁止)响应代码。
    3. 所有客户:发送“X-Robots-Tag:noindex”标题。
    4. 所有客户:将rel="nofollow"添加到指向这些网页的链接。
    5. 在robots.txt中禁止机器人使用机器人。 (我认为,如果您从一开始就禁止机器人,或者在搜索引擎中完全删除之后禁止机器人,这是唯一有用的;否则,引擎无法抓取/访问这些页面以进行发现/尊重noindex标题,所以他们不会删除它们。我提到这个因为我认为robots.txt可能会被误解,并且可能会被建议为不合适的银弹。)
    6. 然而,从那时起,我认为其中一些步骤要么对我的目标毫无用处,要么实际上有问题。

      • 我不确定是否向机器人投掷403是一个好主意。搜索引擎是否会看到并彻底忽视X-Robots-Tag?让他们回应200会更好吗?
      • 我认为rel="nofollow"只会影响目标网页排名,并且根本不会影响抓取。

      计划的其余部分似乎没问题(如果我错了,请纠正我),但我不确定宏计划中的上述子弹。

1 个答案:

答案 0 :(得分:0)

我认为这是一个很好的计划:

  1. Bots:在应用程序中使用用户代理检测中止执行,并发送基本空白的响应。 (我不介意是否有一些机器人可以通过并呈现真实的页面,但我只是阻止了一些常见的机器人。)
  2. Bots:发送一个410(Gone)响应代码。
    “一般来说,网站管理员有时会抓住一些小细节,所以如果页面消失了,那么服务404就好了,如果你知道它已经真实了,可以提供410,“
    - http://goo.gl/AwJdEz
  3. 所有客户:发送“X-Robots-Tag:noindex”标题。我认为这对于获得410的已知机器人来说是无关紧要的,但它会覆盖未知引擎的机器人。
  4. 所有客户:将rel="nofollow"添加到指向这些网页的链接。这可能不是完全必要的,但它不会受到伤害。
  5. 禁止机器人在robots.txt中访问这些页面。 (如果您从一开始就这样做,或者在这些页面被从搜索引擎中完全删除之后禁止机器人,这是唯一有用的;否则,引擎无法抓取/访问这些页面以发现/荣誉noindex标题,所以他们不会删除它们。我提到这个因为我认为robots.txt可能会被误解,并且可能会被建议为不合适的银弹。)