提取锚文本周围的单词

时间:2011-01-24 11:02:20

标签: java html

我需要帮助使用java代码来提取围绕html内容的锚文本的一些单词。特别是锚文本之前和之后(两侧)的七个单词(包括HTMl块级元素和标点符号)

2 个答案:

答案 0 :(得分:0)

您可以使用regular expression

答案 1 :(得分:0)

您想从href创建新的URL()并仅获取主机部分吗?看看这堂课。

要查找锚点并获取href属性,我推荐杰里科图书馆。当我需要解析HTML / XML样本并且不需要XML验证时,我总是使用它。它快速且易于使用,并且在项目页面上有很多示例。