Question

我使用Python工作，希望以Unicode格式读取用户输入（来自命令行），即等效于raw_input的Unicode？

另外，我想测试Unicode字符串是否相等，看起来标准==不起作用。

Answer 1

raw_input()返回由OS或UI工具编码的字符串。困难在于知道哪个是解码。您可以尝试以下操作：

import sys, locale
text= raw_input().decode(sys.stdin.encoding or locale.getpreferredencoding(True))

在大多数情况下应该可以正常工作。

我们需要更多有关不进行Unicode比较的数据，以便为您提供帮助。但是，这可能是一个正常化的问题。请考虑以下事项：

>>> a1= u'\xeatre'
>>> a2= u'e\u0302tre'

a1和a2相同但不相等：

>>> print a1, a2
être être
>>> print a1 == a2
False

所以你可能想要使用unicodedata.normalize()方法：

>>> import unicodedata as ud
>>> ud.normalize('NFC', a1)
u'\xeatre'
>>> ud.normalize('NFC', a2)
u'\xeatre'
>>> ud.normalize('NFC', a1) == ud.normalize('NFC', a2)
True

如果您向我们提供更多信息，我们可能会为您提供更多帮助。

Answer 2

它应该工作。 raw_input返回一个字节字符串，您必须使用正确的编码对其进行解码以获取unicode对象。例如，以下内容适用于Python 2.5 / Terminal.app / OSX：

>>> bytes = raw_input()
日本語 Ελληνικά
>>> bytes
'\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e \xce\x95\xce\xbb\xce\xbb\xce\xb7\xce\xbd\xce\xb9\xce\xba\xce\xac'

>>> uni = bytes.decode('utf-8') # substitute the encoding of your terminal if it's not utf-8
>>> uni
u'\u65e5\u672c\u8a9e \u0395\u03bb\u03bb\u03b7\u03bd\u03b9\u03ba\u03ac'

>>> print uni
日本語 Ελληνικά

至于比较unicode字符串：你能发布比较不起作用的例子吗？

Answer 3

我不太确定，你用“Unicode格式”表示哪种格式，有几种。 UTF-8？ UTF-16？在任何情况下，您都应该能够使用raw_input读取普通字符串，然后使用字符串decode方法对其进行解码：

raw = raw_input("Please input some funny characters: ")
decoded = raw.decode("utf-8")

如果你有不同的输入编码，只需使用“utf-16”或其他代替“utf-8”。另请参阅the codecs modules docs了解不同类型的编码。

然后比较==应该可以正常工作。如果您有包含特殊字符的字符串文字，则应在其前面添加“u”以将其标记为unicode：

if decoded == u"äöü":
  print "Do you speak German?"

如果您想再次输出这些字符串，您可能希望以所需的编码再次对它们进行编码：

print decoded.encode("utf-8")

Answer 4

在一般情况下，可能无法比较unicode字符串。问题是有几种方法可以组成相同的字符。一个简单的例子是重音罗马字符。尽管基本上所有常用的重音字符都有代码点，但从非重音基本字母和非间距重音组成它们也是正确的。这个问题在许多非罗马字母表中更为重要。

如何在Python中读取Unicode输入并比较Unicode字符串？

4 个答案: