Xpath / HtmlAgilityPack:从href标记获取特定属性

时间:2013-04-05 19:20:23

标签: xpath tags html-parsing href html-agility-pack

我正在使用HtmlAgilityPack来解析html文件中的href标记。 href标签如下所示:

<h3 class="product-name"><a href="http://www.somewebsite.com/blahblah" title="Click Here to View This Product">Super Cool Product</a></h3>

到目前为止,我可以成功地将网址和标题拉出来,并将其显示在列表中。这是我用来解析html的主要代码:

var linksOnPage = from lnks in document.DocumentNode.SelectNodes("//h3[@class='product-name']//a")
                        where
                            lnks.Attributes["href"] != null && 
                            lnks.InnerText.Trim().Length > 0
                      select new
                      {
                          Url = lnks.Attributes["href"].Value,
                          Text = lnks.InnerText
                      };

上面的代码给出了一个如下所示的结果:

Super Cool Product - http://www.somewebsite.com/blahblah

我正在试图弄清楚如何分别拉出名称和网址,并将它们放入单独的字符串中,而不是将它们拉出来并将它们放入一个字符串中。我猜我可以使用某种Xpath符号来做到这一点。如果有人能引导我朝着正确的方向前进,我将非常感激

谢谢, 英里

0 个答案:

没有答案