每种语言最常见的编码是什么?

时间:2011-12-14 17:56:45

标签: encoding character-encoding

我正在开发一个纯文本阅读器应用程序。有时app无法自动确定文件的编码,因此用户需要从编码列表中选择编码。如果此列表包含所有支持的编码,则它将太长。我想提供一个简化的列表,只包含每种语言最常见的编码。

这是我所知道的一些关系:

  • 繁体中文:Big5
  • 简体中文:GB18030
  • 日语:Shift-JIS,EUC-JP
  • 俄语:KOI8-R

如果你知道任何其他语言最常见的编码,请告诉我。

3 个答案:

答案 0 :(得分:52)

FWIW,以下是按默认字符编码分组的Windows XP区域设置:

  • Big5 :zh_HK,zh_MO,zh_TW
  • GBK (≈GB2312):zh_CN,zh_SG
  • Windows-31J (≈Shift_JIS):ja_JP
  • windows-874 (≈TIS-620,ISO-8859-11):th_TH
  • windows-949 (≈EUC-KR):ko_KR
  • windows-1250 :bs_BA,cs_CZ,hr_BA,hr_HR,hu_HU,pl_PL,ro_RO,sk_SK,sl_SI,sq_AL,sr_BA,sr_SP
  • 窗口-1251 :az_AZ,be_BY,bg_BG,kk_KZ,ky_KG,mk_MK,mn_MN,ru_RU,sr_BA,sr_SP,tt_RU,uk_UA,uz_UZ
  • 窗口1252 (≈ISO-8859-1):af_ZA,arn_CL,ca_ES,cy_GB,da_DK,de_AT,将de_CH,de_DE这个,de_LI,de_LU,EN_AU,en_BZ,en_CA,en_CB, en_GB,en_IE,en_JM,en_NZ,en_PH,en_TT,en_US,en_ZA,en_ZW,es_AR,es_BO,es_CL,es_CO,es_CR,es_DO,es_EC,es_ES,es_GT,es_HN,es_MX,es_NI,es_PA,es_PE,es_PR,es_PY, es_SV,es_UY,es_VE,eu_ES,fi_FI,fil_PH,fo_FO,fr_BE,fr_CA,fr_CH表示,fr_FR,则fr_LU,fr_MC,fy_NL,ga_IE,gl_ES,id_ID,is_IS,it_CH,it_IT,iu_CA,iv_IV,lb_LU,moh_CA,ms_BN, ms_MY,nb_NO,nl_BE,nl_NL,nn_NO,ns_ZA,pt_BR表示,PT_PT,qu_BO,qu_EC,qu_PE,rm_CH,se_FI,se_NO,se_SE,sv_FI,sv_SE,sw_KE,tn_ZA,xh_ZA,zu_ZA
  • windows-1253 :el_GR
  • windows-1254 (≈ISO-8859-9):az_AZ,tr_TR,uz_UZ
  • windows-1255 :he_IL
  • 窗口-1256 :ar_AE,ar_BH,ar_DZ,ar_EG,ar_IQ,ar_JO,ar_KW,ar_LB,ar_LY,ar_MA,ar_OM,ar_QA,ar_SA,ar_SY,ar_TN,ar_YE,fa_IR,ps_AF, ur_PK
  • windows-1257 :et_EE,lt_LT,lv_LV
  • windows-1258 :vi_VN

most common encodings overall on the Web

  1. UTF-8(89.2%)
  2. ISO-8859-1(5.0%)
  3. Windows-1251(1.6%)
  4. Shift JIS(0.9%)
  5. Windows-1252(0.8%)
  6. GB2312(0.7%)
  7. EUC-KR(0.4%)
  8. EUC-JP(0.3%)
  9. GBK(0.3%)
  10. ISO-8859-2(0.2%)
  11. Windows-1250(0.2%)
  12. ISO-8859-15(0.1%)
  13. Windows-1256(0.1%)
  14. ISO-8859-9(0.1%)
  15. Big5(0.1%)
  16. Windows-1254(0.1%)
  17. Windows-874(0.1%)

答案 1 :(得分:2)

HTML5草稿包含default encodings for languages表,反映了被视为常见的内容。但请注意,它应该基于用户区域设置,即浏览器或操作系统的语言,而不是文档的语言 - 显然是因为后者通常是未知的,至少在您实际阅读文档之前,基于对编码的一些假设。

我认为你可以在一个流行的网络浏览器中复制编码列表。如果它在那里运行良好,它可能在您的应用程序中运行得相当好。浏览器对列表及其顺序做了一些聪明的事情,但在实践中,我认为只需要一个简短的列表就足够了,比如utf-8,utf-16,windows-1252,也许还有其他几个,然后选择获得完整列表。请注意,尽管utf-16几乎未使用且对网页无用,但对于纯文本文件来说,这种情况很常见。重要的是要很好地命名编码,最好使用通用的英语(或其他语言)名称以及括号中的IANA“charset”名称 - 就像浏览器一样。

答案 2 :(得分:1)

我会推荐像浏览器使用的菜单结构。例如Firefox:View - >字符编码 - >更多编码 - >东亚 - >中国/日文/韩文。 (好吧,如果你只是看起来更容易)。和视图 - >编码 - >在IE中更多。

可能看起来太深笨,但它非常熟悉。并且不会删除有用的编码(例如,为什么KOI8-R用于俄语?如果我使用Windows 1251并且不在列表中会发生什么?)