Unicode HTML在Python中转换为ASCII

时间:2011-07-01 16:55:47

标签: python unicode ascii

  

可能重复:
  Unescaping Characters in a String with Python

我在Python中有一串unicode HTML,它以:\u003ctable>\u003ctr开头 我需要将其转换为ascii,然后我可以使用BeautifulSoup解析它。但是,Python的编码和解码功能似乎没有任何效果;无论我尝试什么,我都会得到原始字符串。我是Python和unicode的新手,所以非常感谢帮助。

2 个答案:

答案 0 :(得分:2)

使用

s.decode("unicode-escape")

首先解码html数据(不知道你是怎么得到这个字符的垃圾)。

答案 1 :(得分:-2)

我不知道你在谈论什么。我怀疑我不是唯一一个。

>>> s = BeautifulSoup.BeautifulSoup(u'<html><body>\u003ctable>\u003ctr</body></html>')
>>> s
<html><body><table><tr></tr></table></body></html>