从命令行执行HTML Javascript

时间:2012-05-20 08:34:14

标签: javascript jquery html web-scraping

我有许多网页,我试图解析使用curl获得的信息。每个页面都使用JQuery将其内容转换为在浏览器中加载的文档(使用document.ready函数) - 主要是设置div的类/ ID。加载Javascript函数后,信息更容易解析。

我(从命令行)执行页面的Javascript内容并转储转换后的HTML有哪些选择?

1 个答案:

答案 0 :(得分:2)

要抓取动态网页,请不要使用像curl这样的静态下载工具。

如果您想要使用无头网络浏览器来抓取动态网页,您可以使用编程语言进行控制。最受欢迎的工具是Selenium

http://code.google.com/p/selenium/

使用Selenium,您可以将修改后的DOM树从浏览器导出为HTML。

示例用例:

https://stackoverflow.com/a/10053589/315168