使用crawler4j。我如何保存网站数据?

时间:2011-09-16 23:40:22

标签: web-crawler

我已经开始使用crawler4j,它似乎正在查找没有问题的网站。但是,我需要保存已爬网的数据。 crawler4j是否支持此功能?

我尝试过使用高级java源代码(和Downloader.java),但似乎没有工作

具体来说,下面的代码从不打印任何内容。

    Downloader myDownloader = new Downloader();
    Page page = myDownloader.download("http://ics.uci.edu");

    if (page != null) {
        System.out.println(page.getText());
    }

我很感激对此的一些意见

谢谢

2 个答案:

答案 0 :(得分:2)

如果您正在滚动扩展WebCrawler类的自己的Crawler,则可以访问在Visit(Page)方法中抓取的页面的详细信息。例如,以下内容将为您提供页面内容:

String content = new String(page.getContentData(), page.getContentCharset());

从那里,您可以将其保存到磁盘或应用所需的任何处理。

答案 1 :(得分:0)

你有没有尝试过其他页面?事实上,您使用的网址缺少“www”。正确的是http://www.ics.uci.edu/

相关问题