非英语语言中的特殊字符

时间:2009-09-25 07:24:49

标签: internationalization locale

如何生成包含特定区域设置中所有字符代码的文本文件,例如1029 Czech。我基本上想要生成一个字母表中存在的每个字符的列表?

3 个答案:

答案 0 :(得分:2)

我会在python +美丽的汤中写一个脚本,从而抓住所有这些:

http://en.wikipedia.org/wiki/List_of_Unicode_characters

答案 1 :(得分:1)

如果这是Windows语言环境,只需生成一个包含32到255之间所有字节的文件:语言环境的字节代码相同;他们只是不同地解释每个字节。有关链接,请参阅this page

示例:字节0xa5代表捷克语代码页(1250)中的“Ą”,而德语代码页(1252 a.k.a ISO-Latin-1)中代表“¥”。

[编辑]请注意,这仅适用于Unicode前语言环境,其中一个字节只映射到一个字符。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

答案 2 :(得分:0)

CLDR(公共区域设置数据存储库,http://cldr.unicode.org/)包含该信息。

但如果用Unicode处理所有事情,那么就没有理由关心。 欧盟现在的成员国使用了几个“传统”代码页中的字符:西欧,东欧,土耳其,波罗的海,希腊,西里尔。 Unicode是唯一的方法。

相关问题