从字符串中提取一些html的最简单方法

时间:2013-06-28 07:55:34

标签: c# asp.net regex

我有一个很长的c#字符串HTML代码,我想专门提取项目符号“<ul><li></li></ul>”。

说我有以下HTML字符串。

var html = "<div class=ClassC441AA82DA8C5C23878D8>Here is a text that should be ignored.</div>This text should be ignored too<br><ul><li>*&nbsp;&nbsp;Need this one</li><li>Another bullet point I need</li><li>A bulletpoint again that I want</li><li>And this is the last bullet I want</li></ul><div>Ignore this line and text</div><p>Ignore this as well.</p>Text not important."

我需要“<ul>”到“</ul>”代码之间的所有内容。可以排除“<ul>”标记。

现在正则表达式不是我最强的一面,但如果可以使用,我需要一些帮助。 我的代码在c#。

1 个答案:

答案 0 :(得分:3)

你应该使用HtmlAgilityPack来做这样的事情。我刚才写了一些介绍,可以帮助你开始:http://colinmackay.scot/2011/03/22/a-quick-intro-to-the-html-agility-pack/