获取网页的HTML代码

时间:2017-12-27 20:04:20

标签: c# web-crawler

我正在尝试使用它的网址获取网页的HTML代码。我编写了以下代码,它可以工作,但比较结果字符串,它与我使用谷歌浏览器检查时看到的代码不匹配。我不是HTML gru,但似乎有所不同。

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://fantasy.premierleague.com/a/leagues/standings/517292/classic");

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

StreamReader stream = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding(response.CharacterSet));

string PageScript = stream.ReadToEnd();

生成的脚本如下:https://ideone.com/DXzfKy

我正在使用这两行来设置安全协议

ServicePointManager.Expect100Continue = true;
ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12;

如果有人能告诉我我在看什么以及可能出现什么问题,我将不胜感激。

1 个答案:

答案 0 :(得分:0)

您需要做的就是创建一个WebClient实例并使用它来读取URI中的数据,而不是将其转换为StreamReader,最后转换为纯文本格式。

WebClient client = new WebClient();
Stream dataFromPage = client.OpenRead(new Uri("https://ideone.com/DXzfKy"));
StreamReader reader = new StreamReader(dataFromPage);
string htmlContent = reader.ReadToEnd();
相关问题