如何使用Python3.1从HTML页面中提取数据?

时间:2012-02-23 02:26:39

标签: html python-3.x information-extraction

我在磁盘上本地存储了大约1000个页面,其中包含类似于以下示例的内容。

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

我需要帮助搞清楚如何从第3行提取字符串Dave并将其加载到UserName列表中。 另外,我需要从第四行中提取00000001并将其加载到UserID列表中。

请帮助,谢谢...

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

您可以使用MiniDom解析XHTML / XML:

或者,Python有一个内置的HTMLParser: