Question

我想在div类中获得一个链接（特定的URL）。这是我的代码，它让我获得div类中的文本（一些文本...... ）。

foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//div[@class='content']"))
{
    //saves text (node.InnerText) in array          
}

这是网站上的HTML。我想获得 www.google.com

<div class="content">
    <p>Some text... 
    <a href="www.google.com">LINK</a> 
    </p>
</div>

Answer 1

foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//div[@class='novica']/p/a[@href='www.google.com']"))
{
    //saves text (node.InnerText) in array          
}

Answer 2

根据您的写作，该代码无效，但您有两个选择：

获得div的节点后，使用.GetElementsByTagName("a")或孩子们取出链接，然后获取它的href属性。
修改您的SelectNodes() XPath以获取a代码：//div[@class='novica']/p/a。

第一个显然更好，如果你做需要该元素的.InnerText来获得Some text...，但第二个是更快的。

Answer 3

foreach (var node in doc.DocumentNode.SelectNodes("//div[@class='novica']"))
{
    var links = node.Descendants("a").Select(n => n.InnerText).ToList();
}

选择div标签内的链接

3 个答案: