为什么Googlebot会按URL长度的升序遍历新添加的网站?

时间:2009-11-03 10:23:25

标签: seo web-crawler googlebot

Googlebot(Googlebot/2.1)似乎按照与网址长度相对应的顺序抓取新添加网站上的网址:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我在多个(> 10个)完全独立的网站上看到了这个确切的模式,所以排序不仅仅是一个随机的巧合。

为避免混淆:抓取订单似乎是Googlebot运营方式的一个非常细微的细节。是的,它确实是一个小细节,但我想了解Googlebot如何抓取网络的技术细节。爬行顺序就是这样一个细节。如果您认为这条知识是“无用的”,那就完全没问题了,但请不要用答案污染这个页面,因为您的贡献不会很有帮助。无助的答案将根据SO的规则进行投票。

我的问题是:

  1. (是的,你个人 - 不是你读过的博客等)观察到这种爬行模式?
  2. Google是否正式记录了抓取模式?
  3. 选择此抓取模式背后的原因是什么?
  4. 请尝试解决所有三(3)个问题。

5 个答案:

答案 0 :(得分:3)

  

从网络开发的角度来看   这种非随机爬行模式可以   给出意外的后果;如   非随机负载模式(如果有的话)   特定的URL长度对应于一个   特别重的类型   交易等。

如果搜索引擎机器人可以访问交易页面,那么我称之为失败。搜索引擎机器人不应该对交易页面有任何访问权限!要么禁止在robots.txt中索引,要么在元机器人的页面上对其进行索引。

你的三个问题因此无用 - 谷歌没有记录他们使用的任何算法。此外,爬行顺序对于了解(或尝试操纵)完全没用,因为基本上你并不关心并希望尽可能多地索引索引(除了你在robots.txt中禁止的那些页面)。

答案 1 :(得分:2)

我没有经历过这样的事情(尽管我从未跟踪过哪些URL被索引以及何时被编入索引)。根据我的经验,Google会首先将其认为最受欢迎的网址编入索引。例如,如果它看到来自高级页面或多个页面的链接,它将在同一站点上的其他页面之前抓取该链接。

我能想到的唯一理由是,Googlebot假设较长的网址等同于“更深层”的网页,但忽略了文件夹结构。

答案 2 :(得分:1)

  1. 没有
  2. 没有
  3. 我不相信爬行模式真的很重要。如果Google发现您的网页序列对您的内容很重要 - 甚至在以错误方式访问时会导致错误,那么您的网站结构(或机器人-metatags / robots.txt)就会出现严重问题。
  4. 我在项目中可以看到的是,Google倾向于以机器人找到它们的方式抓取页面。而这反过来又取决于您向Google展示它们的方式(通过网站链接,站点地图,RSS订阅源等)。

    所以我不会过分担心网址长度,而是在一个显着的,经常抓取的网页上放置一个链接到你想要找到的页面。

答案 3 :(得分:1)

3: 也许goggle bot将URL字符串存储在树数据结构中。第一个最短的URL是树根,因此下一个URL“结尾”将仅作为树叶附加。这比将每个URL存储为单独的字符串更为理想(例如在/ lang_english / / lang_italian / / lang_german /中)。

答案 4 :(得分:0)

  1. 不,我没有。
  2. 没有
  3. 虽然这种行为似乎非常不寻常,但我认为这可能是一堆巧合而不是爬行模式的结果。不幸的是,在进行断言之前我需要更多的数据(来自真实的访问日志)。可能的原因:1。网址是否列在站点地图中? 2. URL是按字母顺序排序的吗? 3. URL通常以哪种顺序出现在页面中?