是否有可能以编程方式获取生成的网页源?

时间:2013-03-09 20:39:44

标签: html dom

正如标题所述,我想知道是否有一种获取页面生成的HTML代码的方法。显然,我可以使用Web开发人员工具(浏览器内置程序或外部程序)检查页面并获取它,但我真的想自动执行此操作。或许可以使用Fiddler的API吗?

谢谢!

2 个答案:

答案 0 :(得分:2)

“源”在页面加载后不会被JavaScript改变,它是从生成的文档对象模型(DOM)被更改的源。然后将这个DOM转换为GUI,只要页面没有重新加载,就会随着每次更改而改变。

DOM不是HTML代码的字符串,它是页面的内存分层对象表示。浏览器在更改DOM时不保持DOM的最新平面文件表示,这就是为什么当您“查看源代码”时,您只能看到最初通过HTTP发送到浏览器的内容。

在Firebug等开发人员工具中,页面/ DOM的节点到节点表示是最接近重新生成源代码(AFAIK)的,而不需要自己构建一些新工具。

答案 1 :(得分:0)

您可以在Python中编写一个带有变量(URL)的脚本,并在下载网页的命令之后插入它,例如wget。

谷歌搜索它,我发现这解析HTML文件:也许你可以wget index.HTML并使用以下其中一个: How do you parse and process HTML/XML in PHP?