如何通过python检索网页的完整内容

时间:2013-04-13 14:59:16

标签: python html web

某些网页在加载时未显示完整内容,但仅显示部分内容,以节省加载时间。

如果用户向下拖动滚动条,将显示越来越多的内容。

我的问题是 - 如何通过python获取网页的完整内容?

在开始时我尝试

content = urlopen('http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers')

但它只获得页面的第一部分。

感谢。

1 个答案:

答案 0 :(得分:0)

正如Martijn Pieters指出的那样,有很多方法可以通过各种网站实现。因此,您可能希望使用无头浏览器。以下是对此问题进行讨论的链接:

Headless Browser for Python (Javascript support REQUIRED!)

在这个问题中,理查德给出了以下答案,你可能会发现这个问题很有用:

  

我通过pyqt / pyside使用webkit作为Python中的无头浏览器:   http://www.riverbankcomputing.co.uk/software/pyqt/download   http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads

     

我特别喜欢webkit,因为它很容易设置。对于Ubuntu,您只需使用:

     

sudo apt- get install python-qt4

     

以下是一个示例脚本:   http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

我希望这会有所帮助。

P.S。:对于未来的问题,尽量不要对你的问题更具体一点,所以你不要被别人投票。


编辑:2013-04-13 19:00 CAT

在查看您更新的问题后,使用您正在调查的特定网址,我在Chrome中打开它并使用开发者工具检查网络请求,我看到当您到达页面底部时会发生什么使用以下格式调用URL:

http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers?cursor=675683697

您只需使用以前的HTML来确定要使用的正确光标值。

相关问题