Question

我在磁盘上本地存储了大约1000个页面，其中包含类似于以下示例的内容。

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

我需要帮助搞清楚如何从第3行提取字符串Dave并将其加载到UserName列表中。另外，我需要从第四行中提取00000001并将其加载到UserID列表中。

请帮助，谢谢...

Answer 1

查看html.parser模块（http://docs.python.org/py3k/library/html.parser.html#module-html.parser）。

Answer 2

您可以使用MiniDom解析XHTML / XML：

或者，Python有一个内置的HTMLParser：

http://docs.python.org/library/htmlparser.html

如何使用Python3.1从HTML页面中提取数据？

2 个答案: