隐藏搜索结果中的上传文件?

时间:2012-09-03 04:48:04

标签: php wordpress robots.txt

运行WordPress的客户已要求在其网站上开发以下功能。

他们希望在搜索结果中包含/排除通过WordPress媒体上传器上传的特定文件(通常是PDF)。

我猜这可以使用robots.txt文件以某种方式完成,但我不知道从哪里开始。

任何建议/想法?

2 个答案:

答案 0 :(得分:0)

这是来自Google网站管理员开发者网站https://developers.google.com/webmasters/control-crawl-index/docs/faq

我的robots.txt文件中的更改需要多长时间才能影响我的搜索结果?

首先,必须刷新robots.txt文件的缓存(我们通常将内容缓存最多一天)。即使在找到更改后,抓取和索引也是一个复杂的过程,有时可能会花费相当长的时间来处理单个URL,因此无法给出确切的时间表。此外,请注意,即使您的robots.txt文件禁止访问网址,该网址仍可在搜索结果中显示,尽管我们无法抓取该网址。如果您希望加快删除您已屏蔽Google的网页,请通过Google网站站长工具提交删除请求。

以下是来自Google https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt

的robots.txt规范

如果您的文件语法正确,最佳答案就是等到Google更新您的新机器人文件。

答案 1 :(得分:0)

我不确定如何在WordPress的范围内执行此操作,但如果您要排除特定的文件类型,我建议您使用X-Robots-Tag HTTP Header。对于通常想要使用机器人标签的PDF和非基于HTML的文件类型,它特别棒。

您可以为所有特定的FileType请求添加标头,然后设置NOINDEX值。这样可以防止PDF包含在搜索结果中。

如果网址以文件类型或文件类型唯一的内容结尾,则可以使用robots.txt文件。示例:Disallow: /*.pdf$ ...但我知道URL并非总是如此。

https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag