如何使用Apache的HttpClient库模仿滚动?

时间:2014-08-23 20:52:34

标签: java javascript scroll apache-commons-httpclient

某些网页的内容有限,但在滚动时只显示更多内容,例如https://answers.yahoo.com/dir/index?sid=396545161&tab=popular&filter=lang&sort=popular

对于人类来说,这不会造成问题。但是,当尝试使用Apache的HttpClient库自动处理此数据时,这确实会产生问题。如何才能让HttpClient在这个Yahoo Answers页面上获取更多主题?

对页面上的javascript进行仔细检查,显示后续调用

[GET] https://answers.yahoo.com/xhr-cat-popular.php?filter=lang&sort=popular&ct=1408831552&cl=1408831552&offset=21&categoryId=396545161&page=2&_txnid=1408831555799&crumb=TVGhgfkE0db
[GET] https://answers.yahoo.com/xhr-cat-popular.php?filter=lang&sort=popular&ct=1408831552&cl=1408831552&offset=41&categoryId=396545161&page=3&_txnid=1408831557894&crumb=TVGhgfkE0db
[GET] https://answers.yahoo.com/xhr-cat-popular.php?filter=lang&sort=popular&ct=1408831552&cl=1408831552&offset=61&categoryId=396545161&page=4&_txnid=1408831823937&crumb=TVGhgfkE0db
[GET] https://answers.yahoo.com/xhr-cat-popular.php?filter=lang&sort=popular&ct=1408831552&cl=1408831552&offset=81&categoryId=396545161&page=5&_txnid=1408831827678&crumb=TVGhgfkE0db

等。滚动时,为后续页面提供所需内容。但是,在我的浏览器窗口(或HttpClient)中打开这些链接时,我只是被重定向到主页。我错过了什么,或者我应该如何欺骗服务器以为我只是要求下一页内容的javascript?

1 个答案:

答案 0 :(得分:0)

你不能(至少不会在任何地方运作)。该功能使用Javascript,而HttpClient并不了解Javascript。

您可以查看页面来源并确定是否有获取更多内容的方法,但这可能很棘手(缩小javascript或其他类似障碍)。

相关问题