Question

我试图从html字符串中删除锚点标记之间的所有链接和文本，如下所示：

 string LINK_TAG_PATTERN = "/<a\b[^>]*>(.*?)<\\/a>";

 htmltext = Regex.Replace(htmltext, LINK_TAG_PATTERN, string.Empty);

这不起作用有人有想法吗？

非常感谢，

Answer 1

使用HTML Parser而非正则表达式来解析HTML。

Answer 2

字符串中的问题：开头不必要的斜杠（即Perl语法），非转义反斜杠（\b），不必要的反斜杠（\\）。

因此，如果成为正则表达式，考虑到其他人已经链接到的所有警告，请尝试

string LINK_TAG_PATTERN = @"<a\b[^>]*>(.*?)</a>";
htmltext = Regex.Replace(htmltext, LINK_TAG_PATTERN, string.Empty, RegexOptions.IgnoreCase);

\b是必要的，以防止以a开头的其他代码进行匹配。

Answer 3

我建议Expresso对正则表达式进行问题排查。您可以找到正则表达式库here。

您可以考虑使用javascript来遍历DOM树以替换正则表达式。

Answer 4

string LINK_TAG_PATTERN = @"(<a\s+[^>]*>)(.*?)(</a>)";

htmltext = Regex.Replace(htmltext, LINK_TAG_PATTERN, "$1$3", RegexOptions.IgnoreCase);

Answer 5

从概念上讲，这只会剥离一种非常特殊的链接（例如，你的正则表达式与大写字母A不匹配，它在HTML中完全有效：<A ...>bla</A>。替换也不适用于javascript链接。是您的代码与用户安全性相关吗？