从动态网站阅读信息

时间:2013-11-26 13:06:42

标签: java web

我从早上起就开始阅读这篇文章了,我找不到有关我的问题的大量信息。

所以,我想创建一个java应用程序,每次网站更新时从网站读取信息(字符串)。是否可以使用Java执行此操作?

我可以使用扫描仪吗?我见过有人推荐使用Jsoup,但我没有找到任何教程。实际上,我的大部分搜索结果都是SO帖子,这些帖子并不是很有用。

那么,任何人都可以提供“类似教程”的答案以供将来参考吗?

1 个答案:

答案 0 :(得分:1)

通常,当您访问网站时(无论是否为动态),您的浏览器会显示您从网络服务器收到的标记,该标记由浏览器解析并呈现以显示网站。

要接收该标记,您的浏览器会向网络服务器发出一个(或多个)HTTP请求。 当您在浏览器地址栏中键入URL www.stackoverflow.com时,浏览器会向服务器生成HTTP请求。响应是网站的标记。

因此,该站点的内容是否是动态的,此时无关紧要,因为对URL的请求(在给定时间)将导致相同的标记,无论该请求是从浏览器还是您的程序发送的。

所以,你需要做的是:

  1. 让您的程序请求网站标记
  2. 解析标记
  3. 做,需要做什么
  4. 该工作有各种框架和API。一个是,如你所提到的,jSoup。 检查this以获取教程。

    某些网站还允许在网址中传递参数,例如www.somesite.com?foo=bar,这称为GET请求。还有POST请求和其他请求,但您需要自己阅读。

    希望这有帮助。