从网站上获取所有网址索引的网址

时间:2015-01-29 09:33:55

标签: url web-crawler

我想要一个这样做的程序,从网站上获取所有带有良好输出的url索引,比如,所有url逐行,并获取网站中未使用的url(因为蜘蛛可以已经这样做了。)

我一直在寻找和寻找替代选项,我想要的是准确和简单的:INPUT:URL OUTPUT:所有的URL。

1 个答案:

答案 0 :(得分:1)

我现在不知道这样的应用程序,但我会尝试通过划分它来简化您的任务:

  1. 您需要一份网站内部链接列表。任何webcrawler工具都可以做到这一点。
  2. 您需要一个由 Google 索引的网站网页列表。有很多SE索引检查器,你可以google它。
  3. 2nd 列表与 1st 列表进行比较,找到Google索引中显示的但您网站上缺少的所有链接。