按公共网页的数量对域进行排序?

时间:2014-05-13 23:20:06

标签: web

我想要按照不同的公共网页数量排序的前100,000个域名列表。

列表看起来像这样

Domain Name         100,000,000 pages
Domain Name          99,000,000 pages
Domain Name          98,000,000 pages
...

我不想知道哪些域名最受欢迎。我想知道哪些域具有最多的不同的,可公开访问的网页。

我无法在Google上找到这样的列表。我假设Quantcast,Google或Alexa都知道,但他们是否发布了这样的列表?

2 个答案:

答案 0 :(得分:2)

对于给定的域名,例如yahoo.com你可以谷歌搜索site:yahoo.com;在结果的顶部,它说"大约141,000,000个结果(0.41秒)"。这包括www.yahoo.comit.yahoo.com等子域名。

另请注意,有些网站会动态生成页面,因此实际上它们可能会有无限的页面"。给定页面将在被要求时计算,并在发送后立即被遗忘。每个都可以链接到下一页。由于许多网站都在动态编写页面,因此没有真正的区别(除了有无限的页面,除非你全部要求,否则你无法找到它们。)

答案 1 :(得分:1)

请记住以下几点:

  • 许多网站动态生成网页,留下可能无限数量的网页。
  • 页面通常落后于安全屏障。
  • 很少有公司有兴趣宣布他们维护的信息量。
  • 索引在创建时已过期。

我倾向于针对具体答案做的是使用wget镜像感兴趣的网站并计算页数。

wget -m --wait=9 --limit-rate=10K http://domain.test

保持缓慢,以便公司不会将您视为拒绝服务攻击。

大多数搜索引擎都允许您按站点搜索他们的索引,尽管结果页面上的信息可能会混淆超过一个粗略的数量级,并且无法知道他们有多少&# 39;已编入索引。

我一眼就看不到他们保留或访问数据库的位置,但是在搜索引擎路径下,您可能也会对SeeksYaCy搜索引擎感兴趣项目

我能想到的唯一一个组织可能(a)容易获得信息,(b)友好和透明到足以想要分享它的人将是The Internet Archive的人。由于他们使用Wayback Machine长期存档网络并且透明度很高,因此它们可能是一个合理的起点。