从Div标签C#RegEx中提取内容

时间:2011-01-23 17:33:48

标签: c# regex html

我需要在divtestimonial1 div中提取此内容 我使用以下regEx,但它只返回第一行

Regex r = new Regex("&lt;div([^<]*<(?!/div>))");
  <div class="testimonial_content" id="divtestimonial1">
          <a name="T1"></a>
          <div class="testimonial_headline">%testimonial1headline</div>
          <p align="left"><img src="" alt="" width="193" height="204" align="left" hspace="10" id="img_T1"/><span class="testimonial_text">%testimonial1text</span><br />
          </p>
  </div>

1 个答案:

答案 0 :(得分:6)

Regular expressions are generally not a good choice for parsing HTML。你可能最好使用像HTML Agility Pack这样的工具,所以我建议你使用它。

话虽如此,您可以使用此正则表达式匹配您的特定样本输入:

<div.*?id="divtestimonial1".*?>.*</div>

但它可能会破坏您的真实场景。 Regex和HTML的一个问题是正确检测标签的嵌套等。

相关问题