从字符串(Java)中的htmlsource中提取div内容

时间:2009-05-07 19:10:33

标签: java html extract

我正在尝试从包含html源的字符串中提取特殊div-tag(由其类名定义)的内容。我认为Java的regexp特性并不像perl那样容易使用,对吧?

之前是否有人这样做过,可以给我一段代码?也许dom-browse是一个很好的解决方案,但我没有找到任何与我的问题相匹配的教程。

2 个答案:

答案 0 :(得分:1)

您可以使用此HTML Parser中的list或其他一些HTML解析库。

答案 1 :(得分:0)

根据您的评论,听起来您有一般情况(“爬虫”),因此您可以有效地解析XML文件。如果源页面是xhtml,那么各种XML库中有多种选项。 (例如,JDom)。