Question

在Java中从HTML页面中提取元素的首选方法是什么？

我的HTML有以下许多行：

<tr class="item-odd">
       <td class="data"><a href="http://.....">TITLE</a></td>
       <td><div class="cost">$1.99</div></td>
</tr>

该班级会替换item-odd和item-even.

我需要提取：

正则表达式是否可行？

Answer 1

我会使用像HTML Parser这样的库来完成这项工作。请查看samples和/或javadoc。另请参阅此处的previous questions。

HTML Parser非常易于使用，应该可以胜任。有关替代方案，请查看此previous answer。

Answer 2

JTidy可以很好地解析HTML并使其可以作为DOM进行操作。正则表达式通常不是的方式，因为HTML不是常规的，并且有许多边缘情况可以帮助你。