Question

我知道有很多方法可以使用第三方库来实现这一点，例如resources，pyparsing，selenium等等，但我正在寻找一种快速而肮脏的方法它没有任何第三方模块。

基本上我想要做的是从网页的页面源获取HTML代码并将其解析为xml格式（可能使用xml.etree.ElementTree）。我试过这个：

import urllib.request
import xml.etree.ElementTree as ET
data = urllib.request.urlopen(website)
tree = ET.fromstring(data.read)

然而，当我这样做时，我得到了不匹配的标签或UTF-8编码的未知符号，页面源肯定是。我假设一个功能正常的html页面不会有不匹配的标签所以我是认为我缺少一些东西。

我不想使用第三方库的全部原因是因为我需要获取一小部分信息，并且不认为这足以证明使用其他模块。