获取Web内容 - 浏览器不支持框架

时间:2011-09-27 11:36:59

标签: java html parsing html-parsing

我有一段这样的代码:

webUrl = new URL(url);
reader = new BufferedReader(new InputStreamReader(webUrl.openStream()));

当我尝试获取某个页面的html内容时,我得到的回答是我的浏览器不支持框架。所以我没有得到页面的真正的HTML。 有解决方法吗? 也许告诉程序注册为某些浏览器?

对我而言,获取html至关重要,然后我想解析它。

编辑:无法从浏览器中的html获取帧的src。它隐藏在js。

2 个答案:

答案 0 :(得分:3)

“你不支持框架,我们没有在这里放置合理的替代内容”消息将在<noframes>元素中。您需要访问相应的<frame>元素,访问其src属性,解析其中的URI,然后从中获取数据。

答案 1 :(得分:1)

您必须在HTTP请求中设置用户代理字符串,以便服务器认为您支持帧。我建议使用HtmlClient或HttpClient这样的东西。