Python - 获取网页解析的源代码

时间:2017-02-02 09:46:57

标签: javascript python encryption

我需要从使用javascript加密的网页抓取数据来保护数据,所以如果我从浏览器访问该页面并查看源代码,我无法查看数据,但如果我这样做“分析元素“在Mozilla或我在我的计算机上下载页面,然后检查源代码,我看到所需的数据未加密。

目前我正在使用:

import requests
source = requests.get(url).text

但是我收到了未解析的源代码

我也尝试过使用wget:

import wget
source = wget.download(url)

但它会下载“拒绝访问Cloudflare”页面。

如何在Python中访问已解析的源代码?

1 个答案:

答案 0 :(得分:1)

如果页面是由JavaScript呈现的,则需要使用headless browser之类的PhantomJS来下载并访问文档结构。无头浏览器将在页面上运行JavaScript,并通过获取外部数据,填充表格等来创建文档,就像真正的浏览器一样。

以下是PhantomJS程序下载页面并获取文档标题的示例:

var page = require('webpage').create();
page.open(url, function(status) {
    var title = page.evaluate(function() {
        return document.title;
    });
    console.log('Page title is ' + title);
    phantom.exit();
});