拆分功能,用于拆分unicode字符

时间:2013-01-24 09:49:03

标签: python regex

我无法在下面的代码

中拆分unicode字符\ u2013
actualdata=metatry['content'].split("-")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+actualdata[0]
dat=actualdata[0].split("\u2013")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+dat[0]
productlist.append(dat[0])

即使它的存在,输出也没有摆脱\ u2013 如果有人帮助我,那会很有帮助。

2 个答案:

答案 0 :(得分:2)

尝试将'u'添加到'\u2013',因为metatry['content']是一个unicode字符串:

u"Samsung Galaxy Note II \u2013 Latest Smartphone in India ".split(u'\u2013')

答案 1 :(得分:1)

metatry['content']unicode object,不是字符串。因此,split来电失败了:

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split("\u2013")
[u'Samsung Galaxy Note II \u2013 Latest Smartphone in India ']

您必须使用 unicode 字符\u2013将其拆分:

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split(u"\u2013")
[u'Samsung Galaxy Note II ', u' Latest Smartphone in India ']

PS:你说你和Beautiful Soup一起工作。 Beautiful Soup uses unicode strings only