java - 使用jpedal从html中提取超链接？ --java

时间：2011-10-05 19:21:26

标签： java html parsing dom jpedal

java中的JPedal库通常用于将pdf转换为XML或HTML。但是，我需要知道我们是否可以从HTML5文档中提取数据并使用JPedal库API将其保存到XML？还有其他可能的选择吗？

此外，我正在尝试使用Java解析HTML5文档并将其存储在XML中。有什么好的解决方案可以找到特定的标签并从中呈现XML吗？

请告诉我。谢谢。

答案 0 :(得分：0)

有许多Java HTML解析器，但我建议使用validator.nu中的HTML5解析器，可从此处下载：http://about.validator.nu/htmlparser/。

编写使用HTML5的主要角色之一的HTML5解析器算法，Mozilla的Henri Sivonen，你将找不到更可靠的HTML解析器，它创建了一个真正的DOM，可以使用标准XML工具进行操作并查询用于使用XPath的超链接。有一些示例说明如何使用XSLT转换以及如何获取创建的DOM的XML序列化。