从html页面中提取元素的最佳方法?

时间:2010-01-06 22:51:05

标签: java html regex

在Java中从HTML页面中提取元素的首选方法是什么?

我的HTML有以下许多行:

<tr class="item-odd">
       <td class="data"><a href="http://.....">TITLE</a></td>
       <td><div class="cost">$1.99</div></td>
</tr>

该班级会替换item-odditem-even.

我需要提取:

  1. 地址
  2. 标题
  3. 正则表达式是否可行?

2 个答案:

答案 0 :(得分:6)

我会使用像HTML Parser这样的库来完成这项工作。请查看samples和/或javadoc。另请参阅此处的previous questions

HTML Parser非常易于使用,应该可以胜任。有关替代方案,请查看此previous answer

答案 1 :(得分:3)

JTidy可以很好地解析HTML并使其可以作为DOM进行操作。正则表达式通常不是的方式,因为HTML不是常规的,并且有许多边缘情况可以帮助你。