我在Python中有一串unicode HTML,它以:\u003ctable>\u003ctr
开头
我需要将其转换为ascii,然后我可以使用BeautifulSoup解析它。但是,Python的编码和解码功能似乎没有任何效果;无论我尝试什么,我都会得到原始字符串。我是Python和unicode的新手,所以非常感谢帮助。
答案 0 :(得分:2)
使用
s.decode("unicode-escape")
首先解码html数据(不知道你是怎么得到这个字符的垃圾)。
答案 1 :(得分:-2)
我不知道你在谈论什么。我怀疑我不是唯一一个。
>>> s = BeautifulSoup.BeautifulSoup(u'<html><body>\u003ctable>\u003ctr</body></html>')
>>> s
<html><body><table><tr></tr></table></body></html>