我怎样才能抓网站?

时间:2012-10-03 23:01:09

标签: java android

我知道如何解析RSS提要,但是如何阅读这些文章呢?我必须抓网站吗?或者是否可以在java中解析文章?

提前致谢

编辑: 我决定使用jSoup

1 个答案:

答案 0 :(得分:2)

RSS提要(大概)包含作为文章链接的URL,所以它(大概)归结为“读”的意思。

  • 如果您只是需要获取它们,请使用URL.getInputStream或其他一些HTTP客户端库。

  • 如果要显示最终用户要阅读的新闻文章页面,则只需在本机浏览器中打开URL。

  • 如果要提取文章文本,那么是的,您需要使用正确的HTML解析器解析HTML,或者使用忽略HTML结构的kludgey文本模式识别来解析HTML。