运行WordPress的客户已要求在其网站上开发以下功能。
他们希望在搜索结果中包含/排除通过WordPress媒体上传器上传的特定文件(通常是PDF)。
我猜这可以使用robots.txt文件以某种方式完成,但我不知道从哪里开始。
任何建议/想法?
答案 0 :(得分:0)
这是来自Google网站管理员开发者网站https://developers.google.com/webmasters/control-crawl-index/docs/faq
我的robots.txt文件中的更改需要多长时间才能影响我的搜索结果?
首先,必须刷新robots.txt文件的缓存(我们通常将内容缓存最多一天)。即使在找到更改后,抓取和索引也是一个复杂的过程,有时可能会花费相当长的时间来处理单个URL,因此无法给出确切的时间表。此外,请注意,即使您的robots.txt文件禁止访问网址,该网址仍可在搜索结果中显示,尽管我们无法抓取该网址。如果您希望加快删除您已屏蔽Google的网页,请通过Google网站站长工具提交删除请求。
以下是来自Google https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
的robots.txt规范如果您的文件语法正确,最佳答案就是等到Google更新您的新机器人文件。
答案 1 :(得分:0)
我不确定如何在WordPress的范围内执行此操作,但如果您要排除特定的文件类型,我建议您使用X-Robots-Tag HTTP Header。对于通常想要使用机器人标签的PDF和非基于HTML的文件类型,它特别棒。
您可以为所有特定的FileType请求添加标头,然后设置NOINDEX值。这样可以防止PDF包含在搜索结果中。
如果网址以文件类型或文件类型唯一的内容结尾,则可以使用robots.txt文件。示例:Disallow: /*.pdf$
...但我知道URL并非总是如此。
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag