以编程方式下载网页

时间:2016-04-06 09:21:10

标签: c# html screen-scraping webpage

我需要从网站下载某些网页供我研究。我尝试使用Darcy Wripper,WinHTTrack和C#WebClient方法下载它们。它发生这样一些页面被下载而(大多数)其他页面抛出错误。例如,我从Darcy Wripper复制了这个错误。

  

27 http://www.dawn.com/news/515958/animadversion-only-the-globes-looked-golden错误N / A N / A 500 0 403    - 请求中止11 http://www.dawn.com/news/813115/flavours-of-culture错误N / A N / A 500 0 403

在Firefox中打开同一个网页(有时会出现我们正在维护的错误,但接下来尝试打开该页面)。 我的问题:C#中是否有下载此类有问题页面的方法?我也试图为.Net寻找一个Firefox Wrapper而没有运气。我的印象是,我可以逐个使用一系列链接在Firefox中打开这些页面,并将它们保存在命令行程序中。 任何有关这方面的帮助或见解将受到高度赞赏。 此致

1 个答案:

答案 0 :(得分:0)

您的目标是使用c#/ .net下载特定页面,对吧?以下是一些可以帮助您入门的代码:

var request = WebRequest.Create("http://www.dawn.com/news/515958/animadversion-only-the-globes-looked-golden");
var response = request.GetResponse();
string content = null;
using (var streamreader = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
    content = streamreader.ReadToEnd();
}
/* do cool stuff with the content */