HTMLAgilityPack选择注释之间的节点

时间:2011-09-01 19:15:08

标签: c# html-agility-pack comments

我正在替换一些与特定小部件相关的头部脚本。我希望能够在评论之间找到与该小部件相关的所有节点。此外,我想轻松删除与指定小部件相关的任何代码(包括开始和结束注释。

插入和删除的代码如下所示:

<!-- WidgetScript_WidgetName -->

  <script src="Widgets/jquery.somecode.js" type="text/javascript"></script>
  <script type="text/javascript">   
    $(function () {
        $('.someid).dothis({parameter, avatar_size: 48, count: 6});
      });
    </script>
    <link href="Widgets/jquery.somecode.css" media="all" rel="stylesheet" type="text/css"/> 

<!--WidgetScript_WidgetName End-->

2 个答案:

答案 0 :(得分:10)

尝试使用以下内容:

var startNode = document.DocumentNode.SelectSingleNode("//comment()[contains(., 'WidgetScript_WidgetName')]");
var endNode = document.DocumentNode.SelectSingleNode("//comment()[contains(., 'WidgetScript_WidgetName End')]");
int startNodeIndex = startNode.ParentNode.ChildNodes.IndexOf(startNode);
int endNodeIndex = endNode.ParentNode.ChildNodes.IndexOf(endNode);

var nodes = startNode.ParentNode.ChildNodes.Where((n, index) => index >= startNodeIndex && index <= endNodeIndex).Select(n => n);

答案 1 :(得分:3)

我会建议这样的事情:

        var head = document.DocumentNode.SelectSingleNode("html/head");

        var nodes = new List<HtmlNode>();

        bool isComment = false;
        foreach (var node in head.ChildNodes.ToList())
        {
            if (node.NodeType == HtmlNodeType.Comment &&
                node.InnerText.Contains("WidgetScript_WidgetName"))
            {
                isComment = !isComment;
                node.Remove();
            }
            else if (isComment)
            {
                nodes.Add(node);
                node.Remove();
            }
        }

        Console.WriteLine(head.InnerHtml);

这将删除两个注释(以及注释本身)之间的每个节点。