jsoup用于获取无序列表中的数据

时间:2012-08-18 02:16:01

标签: java jsoup

我正在使用JSOUP来提取数据。 我有一个html文件:

=
<ul>
<li>
<i>
<a class="Class1" title="title1" href=""www.title1.com">title1</a>
</i>
(one)
</li>
<li>
<i>
<a title=title2" href="www.title2.com">title2</a>
</i>
(two)
</li>
<li>
<i>
<a title="title3" href=""www.title2.com">title3</a>
</i>
(three)
</li>
</ul>

如何使用JSOUP打印title1,title2和title3, 2)如何打印hrefs?

1 个答案:

答案 0 :(得分:0)

非常简单:

Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String title1 = link.attr("title");

//etc.

你看过here吗?

还要确保HTML为well formed。例如匹配报价

上面的HTML输出格式不正确,例如:

<a class="Class1" title="title1" href=""www.title1.com">title1</a>
                                       ^ extra quote

<a title=title2" href="www.title2.com">title2</a>
         ^ missing quote

JSoup 需要有效的HTML。