如何抓取我的网站以检测404/500错误?

时间:2012-07-24 21:31:24

标签: web-crawler crawler4j

是否有任何快速(可能是多线程)方式来抓取我的网站(点击所有本地链接)以查找404/500错误(即确保200响应)?

我还希望能够将其设置为仅单击每种类型的链接中的1个。因此,如果我有1000个类别页面,它只会点击一个。

http://code.google.com/p/crawler4j/是一个不错的选择吗?

我想要一些非常容易设置的东西,我更喜欢PHP而不是Java(尽管如果Java速度快得多,那就没关系。)

3 个答案:

答案 0 :(得分:2)

您可以使用旧的稳定的Xenu工具抓取您的网站。

您可以将他配置为使用100个线程并按状态代码[500 \ 404 \ 200 \ 403]

对结果进行排序

答案 1 :(得分:0)

您可以使用任意数量的开源python项目轻松实现这一点:

  1. 机械化似乎很受欢迎
  2. 美丽的汤和urllib
  3. 您使用其中一种方法抓取网站并检查服务器响应,这应该非常简单。

    但是,如果您有站点地图(或包含所有网址的任何类型的列表),您可以尝试使用cURL或urllib打开每个站点地图,并在不需要抓取的情况下获取您的响应。

答案 2 :(得分:0)

定义“快”?你的网站有多大? cURL将是一个良好的开端:http://curl.haxx.se/docs/manual.html

除非你有一个非常庞大的网站并且需要在几秒钟的时间范围内进行测试,否则只需将URL枚举到列表中并尝试每个网站。