我想运行一个可以在没有X服务器的环境中处理javascript创建的html的爬虫。我知道我可以在xvfb下以无头状态运行Firefox,我知道如何在Firefox上安装MozRepl并使用WWW :: Mechanize与它进行交互,当我有实际的浏览器并可以下载和设置模块时。
我不知道怎么做是在我没有X服务器的环境中在Firefox上设置MozRepl,以便我安装模块。任何帮助表示赞赏。
答案 0 :(得分:3)
无头html + javascript有很多选项(主要得益于谷歌在Chrome浏览器中使用的新玩具Node.js),具体取决于你想要使用的语言,但不幸的是,我所知道的都是基于firefox - 有crowbar,但自2008年以来它似乎没有更新。
由于firefox已经开始将gecko与浏览器前端更紧密地集成在一起,因此在Firefox上基于这样的软件变得不太可行了。关于node.js,我对Perl产品知之甚少,但这里有一些其他产品:
然后还有一些非节点选项:
我相信node.js还有一个python接口(虽然如果它实现了一个浏览器环境,我不知道),并且perl空间和节点也可能正在进行工作。