unicode - 日语，韩语和中文所需的Unicode字符

时间：2015-10-28 15:28:38

标签： unicode fonts multilingual cjk

我正在尝试回答这些基本问题而没有获得语言学和早期人类历史学位，这似乎是每个谷歌搜索引领的地方。

答案 0 :(得分：1)

从Code Charts @ unicode.org开始使用东亚脚本。

例如，平假名是U + 3040到U + 309F，而片假名是U + 30A0到U + 30FF。

答案 1 :(得分：1)

它取决于您希望为每种语言提供多少覆盖范围。所有这些语言中最常用的字符只需要几千个字符，但偶尔会遇到覆盖范围之外的一些字符。当您增加系统支持的字符数时，您将不太可能遇到这些丢失的字符，直到您覆盖所有CJK字符为止。

现代字体开发人员使用的一种常用方法是，为了减少制作字体的时间和精力，并且支持足够数量的字符以便显示大多数字体，是使用在Unicode前时代字符集中给出的范围Big5（-HKSCS），GB2312或18030，以及其他人回答的评论中提到的，但是遇到不受支持的字符会很常见。

在Unicode中，制作了一个名为IICore的东西，并定义了大约一万个字符，这些字符对于支持这些语言至关重要，在Unicode数据库中也有关于它们对中文，日文是否必不可少的信息。韩国或其他，但现在几乎没有人使用它们。

Google和Adobe现在正在制作Noto CJK或者称为Source Han字体，它应该涵盖尽可能多的CJK字符。但是，由于文件格式的限制，它们只能在字体中放入大约65535个字形，因此在制作它们时必须添加/删除字符。

最后，特别是韩国人，在很多情况下支持Hangul / Jamo可能已经足够好了，因为除了专业领域之外，Hanja（表意文字）已经基本上没有用了。请注意，人名和标题中的一些单词可能是这些方面的一部分仍然会使用Hanja，因此它取决于它们对您是否重要

答案 2 :(得分：0)

您可以通过查看相应的Unicode properties（特别是每个字符的“脚本”）来估算此类列表，但这并不能完全反映实际的字符使用情况。

更好的指标是已为this tech note中描述的那些语言（例如Adobe-Japan-1-6，Adobe-GB-1-5和Adobe-Korea1-2）的字体定义的字符集（确切的字符集是defined separately）。 CMap文件应该允许您将它们转换回Unicode代码点。