Question

Googlebot（Googlebot/2.1）似乎按照与网址长度相对应的顺序抓取新添加网站上的网址：

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我在多个（＆gt; 10个）完全独立的网站上看到了这个确切的模式，所以排序不仅仅是一个随机的巧合。

为避免混淆：抓取订单似乎是Googlebot运营方式的一个非常细微的细节。是的，它确实是一个小细节，但我想了解Googlebot如何抓取网络的技术细节。爬行顺序就是这样一个细节。如果您认为这条知识是“无用的”，那就完全没问题了，但请不要用答案污染这个页面，因为您的贡献不会很有帮助。无助的答案将根据SO的规则进行投票。

我的问题是：

你（是的，你个人 - 不是你读过的博客等）观察到这种爬行模式？
Google是否正式记录了抓取模式？
选择此抓取模式背后的原因是什么？

请尝试解决所有三（3）个问题。

Answer 1

从网络开发的角度来看这种非随机爬行模式可以给出意外的后果;如非随机负载模式（如果有的话）特定的URL长度对应于一个特别重的类型交易等。

如果搜索引擎机器人可以访问交易页面，那么我称之为失败。搜索引擎机器人不应该对交易页面有任何访问权限！要么禁止在robots.txt中索引，要么在元机器人的页面上对其进行索引。

你的三个问题因此无用 - 谷歌没有记录他们使用的任何算法。此外，爬行顺序对于了解（或尝试操纵）完全没用，因为基本上你并不关心并希望尽可能多地索引索引（除了你在robots.txt中禁止的那些页面）。

Answer 2

我没有经历过这样的事情（尽管我从未跟踪过哪些URL被索引以及何时被编入索引）。根据我的经验，Google会首先将其认为最受欢迎的网址编入索引。例如，如果它看到来自高级页面或多个页面的链接，它将在同一站点上的其他页面之前抓取该链接。

我能想到的唯一理由是，Googlebot假设较长的网址等同于“更深层”的网页，但忽略了文件夹结构。

Answer 3

没有
没有
我不相信爬行模式真的很重要。如果Google发现您的网页序列对您的内容很重要 - 甚至在以错误方式访问时会导致错误，那么您的网站结构（或机器人-metatags / robots.txt）就会出现严重问题。

我在项目中可以看到的是，Google倾向于以机器人找到它们的方式抓取页面。而这反过来又取决于您向Google展示它们的方式（通过网站链接，站点地图，RSS订阅源等）。

所以我不会过分担心网址长度，而是在一个显着的，经常抓取的网页上放置一个链接到你想要找到的页面。

Answer 4

3：也许goggle bot将URL字符串存储在树数据结构中。第一个最短的URL是树根，因此下一个URL“结尾”将仅作为树叶附加。这比将每个URL存储为单独的字符串更为理想（例如在/ lang_english / / lang_italian / / lang_german /中）。

Answer 5

不，我没有。
没有
虽然这种行为似乎非常不寻常，但我认为这可能是一堆巧合而不是爬行模式的结果。不幸的是，在进行断言之前我需要更多的数据（来自真实的访问日志）。可能的原因：1。网址是否列在站点地图中？ 2. URL是按字母顺序排序的吗？ 3. URL通常以哪种顺序出现在页面中？

为什么Googlebot会按URL长度的升序遍历新添加的网站？

5 个答案: