search-engine - 搜索引擎在哪里开始抓取？

搜索引擎在哪里开始抓取？

时间：2008-09-03 10:30:53

标签： search-engine

搜索引擎机器人使用什么作为起点？是DNS查询还是从一些知名网站的固定列表开始？有任何猜测或建议吗？

3 个答案:

答案 0 :(得分：8)

您的问题可以通过两种方式解释：

您是否在询问搜索引擎从哪里开始抓取，或者他们开始抓取特定网站的位置？

我不知道大玩家的工作方式;但是如果你要制作自己的搜索引擎，你可能会把它与流行的门户网站一起播种。 DMOZ.org似乎是一个受欢迎的起点。由于大玩家拥有的数据比我们多得多，他们可能会从各个地方开始爬行。

如果你问的是SE开始抓取你的特定网站的位置，那么它可能与你最喜欢哪个网页有很大关系。我想如果你有一个很多其他网站链接的超级热门网页，那么这将是SE开始的网页，因为其他网站还有更多的入口点。

请注意，我不是SEO或任何东西;我刚刚为我正在进行的项目研究了bot和SE流量。

答案 1 :(得分：4)

您可以使用他们的site submission forms将您的网站提交给搜索引擎 - 这会让您进入他们的系统。当你实际上被抓获之后，这是不可能的 - 从经验来看，通常大约一个星期左右进行初始抓取（主页，其他一些页面1 - 从那里深入链接）。您可以使用清晰的语义链接结构增加抓取和编入索引的页数，并提交sitemap - 这些页面允许您列出所有页面，并相对于彼此加权，这有助于搜索引擎了解您查看网站的每个部分相对于其他部分的重要性。

如果您的网站是从其他已抓取的网站链接的，那么您的网站也会被抓取，从链接的网页开始，最终传播到您网站的其余部分。这可能需要很长时间，并且取决于链接网站的抓取频率，因此网址提交是让Google了解您的最快方式！

我不能高度推荐的一个工具是Google Webmaster Tool。它可以让你看到你被抓取的频率，googlebot偶然发现的任何错误（断开的链接等），还有许多其他有用的工具。

答案 2 :(得分：2)

原则上他们从零开始。只有当有人明确告诉他们要包含他们的网站时，他们才能开始抓取这个网站并使用该网站上的链接进行更多搜索。

然而，在实践中，搜索引擎的创建者会放入一些他们能想到的任意网站。例如，他们自己的博客或他们在书签中的网站。

理论上，人们也可以选择一些随机地址，看看那里是否有网站。我怀疑有人这样做;上面的方法可以正常工作，只需要引导搜索引擎就不需要额外的编码。