从HTML页面中提取段落

时间:2011-03-16 17:48:57

标签: java jsoup paragraphs

使用Jsoup,我想从HTML页面中提取所有段落,即<p></p>之间的任何段落。

我如何做到这一点?

1 个答案:

答案 0 :(得分:3)

你可以这么做:

myDocument.getElementsByTag('p') 

JSoup getElementsByTag

然后,您可以迭代返回的元素,并获取他们认为与您想要做的事情最相关的数据/文本/ ownText /。

JSoup Element.text()