搜索引擎可以将秘密URL编入索引吗?

时间:2010-11-23 08:24:19

标签: security search-engine web-crawler

我的老板最近带着安全问题来找我。

我的公司进行研究,然后向客户发送报告(此报告对每个客户都是唯一的,并包含有关其业务的识别信息)。

我们会将报告通过电子邮件发送给客户,但我们也会将其上传到我们的服务器,并为客户提供一个网址,其中包含可随时用于在线访问报告的哈希值。 (换句话说,任何有链接的人都可以访问该报告) 该链接类似于:

页面背后的代码执行以下操作:

  • 展开哈希并使用它在数据库中查找报告信息
  • 根据报告ID和电子邮件
  • 验证此哈希确实有效
  • 从服务器检索报告pdf并显示它。

如果网址中的哈希不存在或无效,则用户会收到“无效”消息。

他的问题是:

  

点击该链接即可打开该报告,这是否意味着Google可以为这些网页编制索引,这些网页可能会出现在Google的搜索结果中,供全世界查看?

我的直觉是,不,如果一个爬虫会到达report_page.php,所有它会看到无效的消息,除非它以某种方式有一个有效的哈希,但我不确定这一点,并且在搜索之后周围,​​我没有想出任何证明我正确(或错误)的东西。

有什么想法?谢谢!

3 个答案:

答案 0 :(得分:4)

如果网址发布在可公开访问的网页上,则Google抓取工具会找到该网址,并且该网页将被编入索引。根据你的说法,这听起来不太可能,所以你应该安全。如果您的客户端碰巧公开了网址,那么Google会抓取并将其编入索引。它类似于密码:保密,保持安全。

答案 1 :(得分:1)

网页抓取工具当然可以为这些网页编制索引 - 很多网站使用长不透明的哈希来识别网页,这对于搜索引擎来说没有任何区别。

您需要拥有robots.txt文件,禁止访问这些网址,并添加相应的标头和元标记,以明确抓取工具不应将其编入索引。此外,如果它确实是私有数据,则应使用SSL加密事务。您也可以考虑让哈希仅使用一次,即每次客户想要下载时都要求通过电子邮件发送新哈希。这将有效地防止随机偷渡者(或人)阅读它们。 (尽管在发送电子邮件和客户使用附带的哈希值之间仍存在竞争条件)

答案 2 :(得分:-1)

在robots.txt中,您可以禁止谷歌和其他搜索引擎索引您的网址

默认情况下,搜索引擎会将您的网址编入索引,如果您将其链接到