不遵循(或者至少没有获得整个页面内容),如何解决?
我认为没有客户端重定向......
<meta http-equiv ...
在我从中得到的内容:
Document doc1 = Jsoup.connect("http://e-uprava.gov.si/e-uprava/oglasnadeska.htm")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.ignoreContentType(true)
.ignoreHttpErrors(true)
.followRedirects(true)
.timeout(600000)
.maxBodySize(0)/*unlimited body size*/
.get();
String url = "http://e-uprava.gov.si/e-uprava/oglasnadeska.htm";
final Connection connection = Jsoup.connect(url).timeout(10000);
final Response response = connection.execute();
final int status = response.statusCode();
System.out.println(status);
status = 200
那是
div class =&#34; subpage-container ...
没有填充我在浏览器中看到的东西。 Checking for meta and javascript redirects - &gt;没有可用的结果
答案 0 :(得分:2)
<强>解释强>:
重定向不是问题,jsoup
正确加载页面。
问题是页面正在使用JavaScript
来动态加载您要查找的内容。虽然jsoup
只是HTML
解析器,但您不能指望它执行JavaScript
并获取数据。
<强>溶液强>
如果您在浏览器中打开此页面并查看此页面发出的所有请求developer tools,您肯定会找到这个:
其中包含您想要的所有数据。
等浏览器模拟器会更好