如何让搜索引擎不再搜索pdf?

时间:2013-01-09 22:29:14

标签: wordpress indexing search-engine

我在WordPress中构建了一个站点,并仅为成员设置用户登录。所以拥有该用户名和密码的人在登录后查看该页面。其他人只需继续查看该网站即可。所以我得到了它的工作,除了客户端之外的所有人都输入了像PDF这样的信息供用户在该页面上查看,而且这个客户端正在网上搜索PDF包含的名称,并且公众不应该访问这些名称,但仅限于那些谁登录了。有没有办法我可以私下设置那些未被搜索引擎搜索的PDF。 如果我可以设置它不仅没有链接的人可以查看它,只有那些登录的人。

3 个答案:

答案 0 :(得分:2)

解决方案1:密码保护

使用HTTP基本身份验证保护网站是阻止访问该网站的任何其他人的最佳方式。但是,当你进行模拟观众测试时,这是不可能的。

解决方案2:Robots.txt

Google提供的另一个解决方案是使用Robots.txt文件告诉Bots不要抓取或列出结果中的网页。但这并不总是一个解决方案。 Google的Matt Cuts已经确认,如果谷歌认为相关,Google可能会包含此类网站的网页。

User-agent: *
Disallow: /

添加您的文件名以禁止

解决方案3:使用.htaccess RewriteCond

因此解决方案是阻止Google和其他类似机器人访问您的网站。为此,请在htaccess中输入以下代码。

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp
RewriteRule ^.*$ "http\:\/\/htmlremix\.com" [R=301,L]

将最后一行中的网址更改为您的主网站,以便在有人链接到您的被阻止网站时,您的网站获得SEO排名。

解决方案4:请求Google删除

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=164734&from=61062&rd=1

解决方案5:您可能希望通过其他任何工具

http://www.debianhelp.co.uk/htaccessweb.htm

答案 1 :(得分:1)

使用robots.txt文件以告知抓取工具不要查看您的pdf文件 像这样:

User Agent: *
Disallow: /*.pdf$

here

答案 2 :(得分:0)

在robots.txt文件中添加

用户代理:
禁止:/
.pdf $

过一会儿,取决于搜索引擎对网站进行更新索引的速度。访问https://pdflookup.com,输入要检查的PDF标题。您的PDF将不会显示在搜索结果中。