获取生成的网页源

时间:2017-06-03 14:52:15

标签: html perl web-scraping phantomjs

我想废弃一个投注页面的结果。网页是动态生成的并且后面有一些javascript运行(至少是我从源代码中推断出来的)。到目前为止,我试图用Perl(wget)

获取网页的内容
use strict;
use warnings;

my $url = 'https://superbet.ro/pariuri-sportive';

my $html = qx{wget --quiet --output-document="C:/Users/Cristi/Desktop/web.html" $url};

但是这没有用(如果我在浏览器中右击,输出与我得到的输出相同 - >查看页面源)。

然后我尝试使用phantomJs:

var page = require('webpage').create();
page.open('https://www.superbet.ro/pariuri-sportive', function (status) {
    console.log("status: " + status);
    if (status !== "success") {
      console.log("Unable to access network");
    } else {
    window.setTimeout(function() {
        var fs = require('fs');
        try {
            fs.write("C:/Users/Cristi/Desktop/output.html", page.content, 'w');
        } catch(e) {
            console.log(e);
        }
    }, 10000); // adjust time for every page        }
});

同样的结果。

然后我尝试在firefox中安装Web developer并使用右键单击> Web开发人员 - >查看源代码>查看生成的源来加入生成的内容。这个输出实际上是我想要的。但是反而手动操作我想以自动方式进行。

我在Perl或phantomJs方法中做错了什么?有没有办法让Web developer加载项获取命令以从脚本或批处理文件中获取生成的源代码?

0 个答案:

没有答案