使用jsoup清理源代码解析网站

时间:2016-12-24 00:36:06

标签: java string jsoup

通过java jsoup网站进行分析时,我想删除每个/>代码中的img

来源:

<div>
    <a href="#">ABC</a> 
    <a href="#"><img src="#"/></a>
    <br/>
</div>

结果:

<div>
    <a href="#">ABC</a> 
    <a href="#"><img src="#"></a>
    <br/>
</div>

1 个答案:

答案 0 :(得分:0)

尝试html()方法

public class Test {
    public static void main(String[] args) {
        String s="<div>\n" +
                "    <a href=\"#\">ABC</a> \n" +
                "    <a href=\"#\"><img src=\"#\"/></a>\n" +
                "    <br/>\n" +
                "</div>";
        System.out.println(Jsoup.parse(s).html());
    }
}

输出:

<html>
 <head></head>
 <body>
  <div> 
   <a href="#">ABC</a> 
   <a href="#"><img src="#"></a> 
   <br> 
  </div>
 </body>
</html>