从文本中删除锚标记

时间:2011-07-19 14:56:34

标签: c# asp.net regex

如何从字符串中删除锚标记,我有一个大文本,因为某些单词具有锚标记我想删除该锚标记并想要显示普通单词(带有锚标记)。我的文字看起来像:

  

LoremIpsum.Net是一个小而简单的静态网站   provides你有一个不错的通道,而不必使用   发电机。该网站还提供了全文大写版本的文本,如   以及翻译,以及这个着名的explanation

3 个答案:

答案 0 :(得分:6)

如果您想要一个非常简单(且非防弹)示例,请参阅下文。不过,我仍然强烈建议您找到一个“正确的”HTML解析器。

using System;
using System.Text.RegularExpressions;

public class Test
{
        public static void Main()
        {
                String sample = "<a href=\"http://test.com\" rel=\"nofollow\">LoremIpsum.Net</a> is a small and simple static site that <a href=\"http://test123.com\" rel=\"nofollow\">provides</a> you with a decent sized passage without having to use a generator. The site also provides an all caps version of the text, as well as translations, and an <a href=\"http://test445.com\" rel=\"nofollow\">explanation</a> of what this famous.";

                String re = @"<a [^>]+>(.*?)<\/a>";
                Console.WriteLine(Regex.Replace(sample, re, "$1"));
        }
}

<强>输出

  

LoremIpsum.Net是一个小而简单的静态网站,无需使用发电机即可为您提供合适尺寸的通道。该网站还提供了全文大写版本的文本,以及翻译,并解释了这个着名的。

答案 1 :(得分:2)

这是我删除Html的代码:

public static string StripHTML(this string HTMLText)
{
    var reg = new Regex("<[^>]+>", RegexOptions.IgnoreCase);
    return reg.Replace(HTMLText, "").Replace("&nbsp;", " ");
}

答案 2 :(得分:0)