.htaccess密码保护网站是否隐藏在搜索引擎中?

时间:2016-06-24 14:57:27

标签: .htaccess seo robots.txt

我们在域名上有一个网站实例,该网站实例被.htaccess密码阻止。允许一些IP,例如公司的网络。

  • 没有入站链接(虽然显然不能保证这100%)

  • 该网站没有robots.txt

  • 机器人元标记设置为跟随和索引

在所有这些条件下,搜索引擎仍然可以为网站编制索引吗?我想不是,但想确保没有我不知道的漏洞。

2 个答案:

答案 0 :(得分:2)

  

搜索无法访问受密码保护的网页   发动机。

     

搜索引擎漫游器通常无法登录抓取页面,   所以登录后面的内容不会进入搜索索引。

     

来源:http://www.yourseoplan.com/is-password-protected-content-indexable-by-search-engines/

另请参阅Google employee中的这篇文章:

  

不,我们的抓取工具无法访问登录受保护的网页。

     

来源:Google的Gary Illyes,https://productforums.google.com/forum/#!topic/news/2SdcGEWht1o

答案 1 :(得分:0)

我非常确定任何抓取工具在到达任何内容之前都会被停止.htaccess要求输入密码,看看具有.htaccess密码的重点是什么。

如果您希望出于教育目的而冗余,您可以在私有标签中从各种浏览器进行测试,也可以在套接字上发送原始请求以查看您获得的输出。这是一个描述您如何发送原始HTTP请求的页面:https://www3.ntu.edu.sg/home/ehchua/programming/webprogramming/HTTP_Basics.html

以下是该页面的摘录,其中描述了您如何在http://nowhere123.com/docs/index.html抓取网页:

GET /docs/index.html HTTP/1.1
Host: www.nowhere123.com
Accept: image/gif, image/jpeg, */*
Accept-Language: en-us
Accept-Encoding: gzip, deflate
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
(blank line)

您可以使用telnet发送原始请求,这在大多数Linux发行版中都是可用的,并且可能在Windows中也可用。

我继续使用已知的.htaccess密码网关将此请求(带有修改过的路径和主机)发送到我自己的服务器之一,并获得此响应:

HTTP/1.0 401 Unauthorized
Date: Fri, 24 Jun 2016 15:08:26 GMT
WWW-Authenticate: Basic realm="Restricted Area"
Content-Type: text/plain
Content-Length: 19

Invalid CredentialsConnection closed by foreign host.

所以......也许这会对你有帮助。