检查链接是否损坏

时间:2011-05-15 18:56:02

标签: java broken-links

我正在尝试使用Java在网页中找到所有损坏的链接。这是代码:

   private static boolean isLive(String link){

    HttpURLConnection urlconn = null;
    int res = -1;
    String msg = null;
    try{

        URL url = new URL(link);
        urlconn = (HttpURLConnection)url.openConnection();
        urlconn.setConnectTimeout(10000);
        urlconn.setRequestMethod("GET");
        urlconn.connect();
        String redirlink = urlconn.getHeaderField("Location");
        System.out.println(urlconn.getHeaderFields());
        if(redirlink != null && !url.toExternalForm().equals(redirlink))
            return isLive(redirlink);
        else
            return urlconn.getResponseCode()==HttpURLConnection.HTTP_OK;

    }catch(Exception e){

      System.out.println(e.getMessage());
      return false;

    }finally{

        if(urlconn != null)
            urlconn.disconnect();

    }


}

public static void main(String[] s){

    String link = "http://www.somefakesite.net";
    System.out.println(isLive(link));

}

代码来自http://nscraps.com/Java/146-program-code-broken-link-checker.htm

此代码为所有网页(包括已损坏的网页)提供HTTP 200状态。例如 http://www.somefakesite.net/提供以下标题字段:

{null = [HTTP / 1.1 200 OK],Date = [Sun,2011年5月15日18:51:29 GMT],Transfer-Encoding = [chunked],Keep-Alive = [timeout = 4,max = 100 ],Connection = [Keep-Alive],Content-Type = [text / html],Server = [Apache / 2.2.15(Win32)PHP / 5.2.12],X-Powered-By = [PHP / 5.2.9] -1]}

即使这些网站不存在,如何将其归类为断开链接?

1 个答案:

答案 0 :(得分:4)

可能问题在于,目前很多网络服务器和DNS提供商都会检测到这些“已损坏”的链接,并将您重定向到“未找到”的网页。

根据您知道发送404代码的URL(它显示浏览器原始消息)对其进行测试。


编辑回答作者的评论(因为它太长而无法发表评论): 我没有看到你的问题的简单答案,但有几种不同类型的失败:

  • 对于重定向的DNS失败(DNS无法找到的URL,您将被重定向到另一个页面)。所有重定向(如果您被重定向)可能会转到同一页面(由您的ISP / DNS提供商提供),您可以检查它。当然,如果您尝试使用其他ISP / DNS提供商,页面可能会有所不同。如果您没有被重定向,那么您将收到连接错误。
  • 对于具有有效DNS但无法正常工作的服务器(例如,google.com发生故障),应该会出现连接错误。
  • 对于服务器中缺少的资源(“页面”),它更难。 404意味着它被破坏了,但是如果服务器没有发送它,那么就没有什么可做的了。重定向可能有助于将链接标记为可疑,但稍后应手动检查,因为它不仅用于捕获缺失的链接(例如,www.google.com重定向我www.google.es)
相关问题