如何在crawler4j中获取网址为404或301

时间:2013-02-04 07:11:35

标签: crawler4j

是否可以获取crawler4j中的URL是404还是301?

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

我在抓取代码中使用它。任何人都可以告诉我怎么做?

1 个答案:

答案 0 :(得分:2)

作为Crawler4j版本3.3(2012年2月发布) - Crawler4j支持处理已获取页面的http状态代码。

访问StatusHandlerCrawlerExample click.

您还可以使用Jsoup(Java HTML Parser,最好的DOM,CSS和jquery)来解析页面。还有一个示例here - 显示如何从给定的URL下载页面并获取页面状态代码。我认为你应该使用Crawler4j进行抓取,使用Jsoup进行页面抓取。

相关问题