什么Java API数据结构对HTML树有用?

时间:2016-06-01 19:34:42

标签: java xml parsing

为了好玩,我正在编写一个在HTML文档中查找数据的基本解析器。我想找到代表解析文件分支的最佳结构。 “最佳结构”的标准是:我想轻松搜索标签的相对位置并访问其内容,例如“身体中第三个h3标签后的第二个图像标签中的图像”或“标签中的标题标签”头”。

我希望搜索我正在寻找的标签的第一级标签,然后进入与该标签关联的分支。这是这个问题正在寻找的结构,但是如果有更好的方法来查找HTML文档中的相对位置,请解释一下。

这就是问题所在。更一般地说,通过API可以表示哪种Java结构可以表示树数据结构?

1 个答案:

答案 0 :(得分:1)

不要重新发明方向盘,只需使用像Jsoup这样的HTML解析器,即使CSS selector使用方法Element#select(cssQuery),您也可以获取代码。

Document doc = Jsoup.parse(file, encoding);
Elements elements = doc.select(cssQuery);
相关问题