Question

是否可以获取crawler4j中的URL是404还是301？

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

我在抓取代码中使用它。任何人都可以告诉我怎么做？

Answer 1

作为Crawler4j版本3.3（2012年2月发布） - Crawler4j支持处理已获取页面的http状态代码。

访问StatusHandlerCrawlerExample click.

您还可以使用Jsoup（Java HTML Parser，最好的DOM，CSS和jquery）来解析页面。还有一个示例here - 显示如何从给定的URL下载页面并获取页面状态代码。我认为你应该使用Crawler4j进行抓取，使用Jsoup进行页面抓取。

如何在crawler4j中获取网址为404或301

1 个答案: