HTML Agility Pack - 选择带有选项标签的HTML选择标记的问题

时间:2013-07-30 13:16:18

标签: c# .net dom html-agility-pack

我正在使用HTML Agility Pack来选择一个元素,并从加载的html字符串返回该元素及其包含的所有内容。在测试我的代码时,我针对来自w3schools的select标签示例运行它:

<select name="cars">
  <option value="volvo">Volvo XC90</option>
  <option value="saab">Saab 95</option>
  <option value="mercedes">Mercedes SLK</option>
  <option value="audi">Audi TT</option>
</select>

当我尝试使用HTML敏捷包选择并返回时,我得到(删除选项结束标记):

<select name="cars">
  <option value="volvo">Volvo XC90
  <option value="saab">Saab 95
  <option value="mercedes">Mercedes SLK
  <option value="audi">Audi TT
</select>

所以我在这里做了一些搜索并找到了添加该行的说明: HtmlNode.ElementsFlags.Remove( “选项”);

我做到了,现在我得到了(选项文本被移出选项标签之外):

<select name="cars">
  <option value="volvo"></option>Volvo XC90
  <option value="saab"></option>Saab 95
  <option value="mercedes"></option>Mercedes SLK
  <option value="audi"></option>Audi TT
</select>

我希望输出与原始HTML匹配。我需要做些什么来做到这一点?

我也在使用OptionWriteEmptyNodes,因为当我使用输入标签进行测试时,他们的自我关闭被删除了,添加该选项似乎解决了这个问题。我现在评论它以确保它不会影响这个问题。

这是我的.NET C#代码:

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(content);
HtmlNode.ElementsFlags.Remove("option"); // otherwise, the closing tag is removed.

//doc.OptionWriteEmptyNodes = true;

var nodes = doc.DocumentNode.SelectNodes("//select");

if (nodes == null)
    return "Not found";
else
    return nodes[0].OuterHtml;

1 个答案:

答案 0 :(得分:4)

您需要为选项标记设置ElementsFlag字段以使其正常工作

HtmlNode.ElementsFlags["option"] = HtmlElementFlag.Closed;

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);

应返回原始HTML代码。

我认为HtmlAgilityPack以这种方式运行的原因是因为<option> - 标签是具有讽刺意味 HTML中的可选标签,不需要结束标记。

取自HtmlNode类及其字段ElementsFlags的文档:

  

获取标志的集合,这些标志定义特定的特定行为   元素节点。该表包含一个DictionaryEntry列表   小写标记名称为Key,以及HtmlElementFlags的组合   作为价值。

进一步查看HtmlElementFlag枚举显示:

  

空 - 节点为空。 META或IMG是此类节点的示例。   已关闭 - 解析期间节点将自动关闭。

您可以查看课程HtmlNode的源代码,了解哪些其他代码被视为“特定”。