我需要从使用javascript加密的网页抓取数据来保护数据,所以如果我从浏览器访问该页面并查看源代码,我无法查看数据,但如果我这样做“分析元素“在Mozilla或我在我的计算机上下载页面,然后检查源代码,我看到所需的数据未加密。
目前我正在使用:
import requests
source = requests.get(url).text
但是我收到了未解析的源代码
我也尝试过使用wget:
import wget
source = wget.download(url)
但它会下载“拒绝访问Cloudflare”页面。
如何在Python中访问已解析的源代码?
答案 0 :(得分:1)
如果页面是由JavaScript呈现的,则需要使用headless browser之类的PhantomJS来下载并访问文档结构。无头浏览器将在页面上运行JavaScript,并通过获取外部数据,填充表格等来创建文档,就像真正的浏览器一样。
以下是PhantomJS程序下载页面并获取文档标题的示例:
var page = require('webpage').create();
page.open(url, function(status) {
var title = page.evaluate(function() {
return document.title;
});
console.log('Page title is ' + title);
phantom.exit();
});