用于检测和组合重复标签的正则表达式

时间:2011-04-19 21:32:32

标签: c# asp.net regex

我正在使用正则表达式从组织中另一个组控制的页面中提取数据。基本结构遵循相同的模式:

<td><strong>Text I'm looking for</strong>...<a href="Link I'm also looking for"></a></td> 

我能够使用

成功获取所需的数据
<td><strong>(?<title>.*?)</strong>(.*?)<a href="(?<link>.*?)">(.*?)</a></td>

但是我偶尔遇到一个看起来像

的小组
<td><strong>Text I'm </strong><strong>looking for</strong>...<a href="Link I'm also looking for"></a></td>

是否有正则表达式来处理这个问题?它最好自动组合两个块,但如果需要,我可以手动组合它们。

2 个答案:

答案 0 :(得分:1)

使用正则表达式来解析HTML很困难而且不安全。有一个.NET库可以帮助您:Html Agility Pack http://htmlagilitypack.codeplex.com/ (它支持XPATHXSLT

答案 1 :(得分:-1)

也许您可以对第一个“我正在寻找的文本”进行后期处理,以使用空字符串替换字符串"</strong><strong>"

System.String类型有一个可以很好地执行的Replace方法。

相关问题