我想知道网站上有多少个公共页面,例如smashingmagzine.com。有办法计算页数吗?
答案 0 :(得分:3)
您可以使用site
运算符查询Google的索引。 e.g:
site:domain-to-query.com
这将返回当前由Google编入索引的网站页面列表。其他搜索引擎提供类似的功能,但我不知道手头的语法。
当然,并非所有页面都可以编入索引,索引可能包含不再存在的页面。
答案 1 :(得分:2)
您需要基本上抓取该网站。您的流程将类似于:
当没有更多指向同一域的爬网链接时,您的循环终止。请记住留在网站,否则您将开始抓取外部网站。
如果站点地图提供了站点地图,您也可以尝试解析站点地图。
答案 2 :(得分:0)
您需要递归扫描每个页面的标记,从顶级页面开始,查找指向其他页面的任何类型的链接,并递归地浏览它们。您还需要跟踪扫描的内容,以免陷入无限循环。