下载网站获取请求

时间:2016-11-12 22:08:06

标签: java c#

我正在开展一个学校项目,我们编写一个程序来查看网站,下载该网站发出的所有GET请求,然后将这些下载内容提取到本地文件中。该网站不是静态的,因为它不断变化的信息,所以我不能只通过它运行刮刀。有没有办法使用Java或C#,以便我可以以编程方式执行此操作?另外,我不能给你这个网站,因为它是我教授的名字,她只希望她的学生用它来教学。

P.S。我知道您可以通过检查页面元素并选择网络选项卡来手动执行此操作,但我在使用程序时遇到问题。

1 个答案:

答案 0 :(得分:1)

  

我正在开展一个学校项目

首先,我不认为你的教授知道他/她真正在问什么......

简单的方法是:

a)使用 WebClient HttpWebRequest HttpClient 类下载html代码

b)使用HtmlAgilityPack解析html,并提取标签aimgscriptlink等链接({ {3}}不适合这个)...

但是这种方法会错过javascript PLUS 映射动态创建的链接相对urls到绝对的那些是痛苦的屁股。(写一个真正的浏览器模拟器超出你的课程)

另一种选择是使用Regex并观看Webbrowser control图书馆提出的请求...

但是,在这种情况下,我不知道这种方法如何让你学习除了使用某些第三方库之外的东西

PS1:将页面加载到Webbrowser control然后使用DOM对象进行解析也不是解决方案。加载页面后,Javascript代码可能会添加/删除或修改某些链接。所以这个问题比你想的更广泛。

PS2:我很好奇你教授的答案......

相关问题