如何比较Unicode字符串,以便LOOK相同的字符串比较相同?

时间:2011-10-23 16:35:22

标签: unicode

许多编码的Unicode字符序列具有相同的视觉表示和相同的计算含义。

ñ字符可以用两种方式编码:

U+00F1:  ñ   (LATIN SMALL LETTER N WITH TIDLE)

或:

U+006E:  n   (LATIN SMALL LETTER N)
U+0303:  ~   (COMBINING TILDE)

这将创建10个不同的字节序列,显示为ñ:

U+00F1 in UTF-8, UTF-16LE, UTF-16BE, UTF-32BE, UTF32-LE 
U+006E followed by U+0303  UTF-8, UTF-16LE, UTF-16BE, UTF-32BE, UTF32-LE 

有没有直接比较Unicode字符串的方法(我对从各种UTF表示中解码的unicode字符感到满意)并发现它们是相同的?也就是说,我想要的东西告诉我U + 00F1与U + 0303 U + 006E相同

感谢。

1 个答案:

答案 0 :(得分:4)

该过程称为规范化,由任何体面的Unicode库支持。背景资料is here