JSoup,从HTML中删除没有标签的文本

时间:2016-08-18 04:25:34

标签: java html jsoup

我有包含这种内容的HTML代码:

<div>
   <div><!-- There is useful content --></div>
   <br>
   <br>
   <br>
   THIS IS SAMPLE TEXT
   <br>
   THIS IS SAMPLE TEXT 2
</div>

我需要删除THIS IS SAMPLE TEXTTHIS IS SAMPLE TEXT 2

我知道如何删除特定标记内的文本,但是当我尝试将root div的文本设置为空字符串时,所有其他有用的标记也将消失。

如何在根标记内删除没有标记的文本,而不影响其他标记?

1 个答案:

答案 0 :(得分:2)

试试这个:

Element myOuterDiv = myDocument.select("div").first();

for (TextNode textNode : myOuterDiv.textNodes()) {
    textNode.remove();
}

System.out.println(myOuterDiv);

打印哪些:

<div>
 <div>
  <!-- There is useful content -->
 </div>
 <br>
 <br>
 <br>
 <br>
</div>