从字符串中删除Markdown标记

时间:2014-04-13 13:30:48

标签: c# xml string markdown text-manipulation

我有一个字符串,其中嵌入了Markdown标记。我不想将Markdown编码为其他任何东西,我只想撕掉所有标签。

我怎样才能快速完成?我需要将此作为批处理工作的一部分,处理大约500万条文本,因此速度非常重要。

我看了MarkdownSharp,并使用了Transform,但我不确定这是最好的方法。我只想要纯文本输出,里面没有标签。我甚至考虑去除正则表达式,但我不确定性能最佳的选项是什么。

1 个答案:

答案 0 :(得分:3)

您可以使用MarkdownSharp或任何其他类似的库(我推荐Strike,因为它速度惊人!)将Markdown转换为Html,然后使用HtmlAgilityPack提取文本。

更快的选择,但更多的工作,将修改现有的Markdown解析器,以生成纯文本。

相关问题