Java的。比较网页结构(dom)的相似性。

时间:2012-01-17 09:17:01

标签: java html dom similarity

是否有一个库(用于java)比较网页之间的相似性(HTML,dom相似度)?

在我的应用程序中,我想对网站的链接进行分类。 例如: group 1: Product detail page group 2: Category page(适用于在线购物网站等)。

对于这样的分类html结构(dom)相似性是我认为最好的方式。请帮忙解决这个问题。

1 个答案:

答案 0 :(得分:1)

不完全符合您的要求,但如果HTMl的XML有效,您可以使用XMLUnitvery simple来比较它的相似性。

相关问题