如何通过crawler4j下载JavaScript文件中包含的文本?

时间:2015-06-16 00:23:46

标签: javascript web-crawler crawler4j

我正在尝试使用crawler4j从某些网站中提取文字。但是,虽然我已经更改过滤器以允许以下列方式使用js进行扩展

 private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
        + "|png|mp3|mp3|zip|gz))$");

我不知道如何将此文本存储到文件中(如果对于js文件中的文本有不同的方法,而不是常规文本)

1 个答案:

答案 0 :(得分:2)

“访问”被调用,在页面成功处理之后 网络爬虫。然后内容包含在此对象中。

我建议您可以使用提供的方法记下已抓取的javascript内容,例如:解析二进制内容。

@Override
 public void visit(Page page) {
     //parse the binary content contained in the page object
}

一个例子(它与图像有关,但方法基本相同)可以在这里找到:https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java