如何解析包含隐藏标签的HTML页面

时间:2011-03-21 20:57:46

标签: python html

我正在尝试解析一些网页以供将来使用。为了解析网页,我使用了不同的模块,如urllib,lxml,BeautifulSoup,HTMLParser来实现我的目标。

在解析网页时我没有遇到任何问题,直到我遇到隐藏的标签。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到代码的<embed>部分:

 <embed type="..." src="..." ID="..." >

只需手动复制/粘贴。

我需要从这个隐藏的标记中解析ID。为什么我可以使用python从站点解析这部分?有什么方法可以解析这些隐藏的部分吗?

我知道在html源代码中看不到像php和asp这样的代码部分是不可能的,但我想情况并非如此。

1 个答案:

答案 0 :(得分:1)

这个“隐藏”代码可能是由JavaScript在运行时生成的。

您可能会更好地了解JavaScript的工作原理以及获取数据的位置(URL),而不是尝试运行脚本然后解析生成的DOM树...