操纵HTML文档

时间:2012-08-10 07:25:46

标签: html html-parsing jsoup html-manipulation

...<b><a>hello</a></b>...

我想从html文档中删除<b></b>标记。是否可以使用Jsoup?

2 个答案:

答案 0 :(得分:0)

public String clean(String unsafe){ 
        Whitelist whitelist = Whitelist.none(); 
        whitelist.addTags(new String[]{"a"}); 

        String safe = Jsoup.clean(unsafe, whitelist); 
        return StringEscapeUtils.unescapeXml(safe); 
 } 

来自Removing Html tags except few specific ones from String in java

答案 1 :(得分:0)

如果doc是您的包含HTML的文档:

doc.select("b").unwrap();

(也可与Element / Elements一起使用)

示例:

Document document = new Document("");
document.html("...<b><a>hello</a></b>...").select("b").unwrap();

现在您的文档不包含任何b-Tag