计算站点中的页数

时间:2011-02-09 14:08:32

标签: automation web-crawler phpcrawl

我想知道网站上有多少个公共页面,例如smashingmagzine.com。有办法计算页数吗?

3 个答案:

答案 0 :(得分:3)

您可以使用site运算符查询Google的索引。 e.g:

site:domain-to-query.com

这将返回当前由Google编入索引的网站页面列表。其他搜索引擎提供类似的功能,但我不知道手头的语法。

当然,并非所有页面都可以编入索引,索引可能包含不再存在的页面。

答案 1 :(得分:2)

您需要基本上抓取该网站。您的流程将类似于:

  • 从根域/主页开始
  • 查找指向同一域内的所有链接
  • 对于每个链接,请重复步骤

当没有更多指向同一域的爬网链接时,您的循环终止。请记住留在网站,否则您将开始抓取外部网站。

如果站点地图提供了站点地图,您也可以尝试解析站点地图。

在PHP中使用Java时可能会有用的一个工具是JSpiderSphider

答案 2 :(得分:0)

您需要递归扫描每个页面的标记,从顶级页面开始,查找指向其他页面的任何类型的链接,并递归地浏览它们。您还需要跟踪扫描的内容,以免陷入无限循环。

相关问题