使用C#从网页获取链接

时间:2015-12-17 15:35:34

标签: c# visual-studio

我正在尝试抓取一个网页来查找文章链接。

这是我的代码:

static void Main(string[] args)
{
    WebClient web = new WebClient();
    string html = web.DownloadString("http://www.dailymirror.lk");
    MatchCollection m1 = Regex.Matches(html, @"<a href=""(.+?)""/s*class=""panel-heading"">",RegexOptions.Singleline);

    foreach(Match m in m1)
    {
        Console.WriteLine(m.Groups[1].Value);
    }
}

我在页面中关注的html标记是:

<a href="http://www.dailymirror.lk/99833/ravi-s-budget-blues" class="panel-heading">

但是,我的代码无法检索链接,无论如何我可以修改我的代码吗?

1 个答案:

答案 0 :(得分:3)

如上面的评论所述,使用正则表达式解析html通常是一个坏主意。

一种方法是使用HTML Agility Pack:

https://htmlagilitypack.codeplex.com/

HtmlWeb hw = new HtmlWeb();
HtmlDocument doc = hw.Load("http://www.mywebsite.com");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href]"))
{
    // do something with link here
}