泰卢固语Anu脚本文字

时间:2019-01-06 14:26:11

标签: unicode character-encoding character special-characters non-unicode

关于印度语脚本,该脚本在复制/粘贴到浏览器时会丢失字符

我需要了解字符类型以及如何将它们转换为不同的支持格式。我的问题是- 我有使用带Apple Keyboard的Anu脚本软件键入的文本。 使用Anu键入的文本不能在任何类型的浏览器或Web WhatsApp上用作输入。

任何人都可以解决这个问题

复制和粘贴的文本显示如下:-  

真实文本如以下屏幕截图所示:-

此图显示了使用Anu Script软件键入的印度的一种语言

one Language of India typed using Anu Script Software

1 个答案:

答案 0 :(得分:1)

已复制并粘贴到问题中的字符代码是Unicode BMP(基本多语言平面)专用区域(PUA)中的Unicode代码点。区别点是:

  • U+F020U+F026U+F02BU+F03CU+F054U+F058U+F05CU+F06A
  • U+F073U+F075U+F077U+F079U+F080U+F083U+F087U+F088
  • U+F08AU+F090U+F091U+F09FU+F0B2U+F0BCU+F0BFU+F0C2
  • U+F0D2U+F0D4U+F0E1U+F0E6U+F0E7U+F0ECU+F0FB

如果您转到Unicode Charts页并输入“ F020”作为代码,它将为您提供UE000.pdf进行下载,内容为:

  

私人使用区

     

范围:E000-F8FF

     

“专用区”不包含任何字符分配,因此没有字符代码表或名称列表   提供此区域。

这意味着Anu脚本软件正在使用没有国际公认意义的Unicode点-根据定义,BMP PUA属于“私有用途”,并且使用PUA共享数据的各方必须就代码内容达成一致点的意思以及如何显示它们。它们仅与理解约定的软件一起使用。除了可以理解Anu脚本软件功能的软件之外,您不能使用这些代码点。

浏览器只有在知道了相关字体的位置后才会理解这些代码点,这些字体会涉及到复杂的细节,并且可能是特定于平台的。 (我不知道从哪里开始!)

泰卢固语的标准Unicode范围是U+0C00..U+0C7F

  

泰卢固语

     

范围:0C00–0C7F

您最好的选择可能是分析Anu Script软件使用的代码点与Telugu的Unicode标准范围之间的异同,然后再使用Unicode标准代码。您可能需要了解口音和泰卢固语其他各个方面的结合。


我完全不了解泰卢固语,因此以下内容可能不准确,但我认为这或多或少地说明了Anu Script Software输出中的含义:

UTF-8 bytes      PUA        Telugu  Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08  ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x82 0x80 = U+F080 ==> U+0C06  ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32  ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య  (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66  ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0x82 = U+F0C2 
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66  ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య
0xEF 0x81 0x94 = U+F054 /

注1:TELUGU VOWEL SIGN E U + 0C46应该与TELUGU DIGIT ZERO U + 0C66结合使用-如果我正确识别了字符,这似乎是不可能的。我将在这里尝试;我通过将图像中显示的内容与Unicode图表页面进行匹配来识别某些形状,但是我不确定映射到PUA代码点。

您应该能够从提供Anu脚本软件的人员那里获得适当的信息。