停止web.archive.org以保存网站页面

时间:2014-10-13 15:24:16

标签: robots.txt

我曾尝试过访问facebook.com网页。 该网站向我显示一个错误,由于站点robots.txt /

,它无法保存页面

任何人都可以告诉robots.txt中的哪些语句使网站无法访问web.archive.org 我想这是因为这里提到的#permission语句(http://facebook.com/robots.txt

我还能以其他方式为我的网站做这件事。

我也不想让woorank.com或builtwith.com分析我的网站。

注意:如果我向robots.txt添加一些语句以获得上述结果,搜索引擎机器人在抓取我的网站并将其编入索引时应该不会遇到任何问题。

1 个答案:

答案 0 :(得分:4)

Internet Archive(archive.org)抓取工具使用User-Agent值ia_archiver(请参阅their documentation)。

因此,如果您想在robots.txt中定位此僵尸程序,请使用

User-agent: ia_archiver

这正是what Facebook does in its robots.txt

User-agent: ia_archiver
Allow: /about/privacy
Allow: /full_data_use_policy
Allow: /legal/terms
Allow: /policy.php
Disallow: /