Question

某些网页在加载时未显示完整内容，但仅显示部分内容，以节省加载时间。

如果用户向下拖动滚动条，将显示越来越多的内容。

我的问题是 - 如何通过python获取网页的完整内容？

在开始时我尝试

content = urlopen('http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers')

但它只获得页面的第一部分。

感谢。

Answer 1

正如Martijn Pieters指出的那样，有很多方法可以通过各种网站实现。因此，您可能希望使用无头浏览器。以下是对此问题进行讨论的链接：

Headless Browser for Python (Javascript support REQUIRED!)

在这个问题中，理查德给出了以下答案，你可能会发现这个问题很有用：

我通过pyqt / pyside使用webkit作为Python中的无头浏览器：   http://www.riverbankcomputing.co.uk/software/pyqt/download   http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads

我特别喜欢webkit，因为它很容易设置。对于Ubuntu，您只需使用：

sudo apt- get install python-qt4

以下是一个示例脚本：   http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

我希望这会有所帮助。

P.S。：对于未来的问题，尽量不要对你的问题更具体一点，所以你不要被别人投票。

编辑：2013-04-13 19:00 CAT

在查看您更新的问题后，使用您正在调查的特定网址，我在Chrome中打开它并使用开发者工具检查网络请求，我看到当您到达页面底部时会发生什么使用以下格式调用URL：

http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers?cursor=675683697

您只需使用以前的HTML来确定要使用的正确光标值。

如何通过python检索网页的完整内容

1 个答案: