印地语重音字符的unicode范围是什么?

时间:2012-03-01 20:47:32

标签: unicode utf-8 diacritics hindi

我正在尝试收集印地语字符集中所有“o”形状的Unicode列表。实际上,任何使用单独字符来表示重音的字符(使用任何语言)都会更好。

我打算在RegExp中使用这个unicode列表。

我一直在尝试通过在输入TextField中输出它们来编辑字符范围列表,但是编辑此文本会导致奇怪的问题(键盘光标不会放在正确的字符上,选择会突然消失/错误地变形。 ..换句话说...... HINDI HELL!)

我也尝试过使用Notepad ++,但是虽然响应速度更快,但它最终会像在Flash Player文本字段中那样对我产生影响。这似乎特别是在删除[]块(nulls?)字符时发生。其中一些引发奇怪的行为。

无论如何,我想要的只是重音列表。 下面的图片中有一些例子(但我需要所有重音):

enter image description here

谢谢!

3 个答案:

答案 0 :(得分:5)

您可以在此处找到包含按语言分组的unicode范围列表的pdf:http://unicode.org/charts/

对于印地语,您可能需要DevanagariDevanagari Extended

答案 1 :(得分:3)

这是梵文组合标记的字符类:

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的梵文块(不是Devanagari Extended)。

答案 2 :(得分:0)

如果您需要完整集(适用于所有语言),则可以解决问题。 您从ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt的Unicode日期文件开始,由TR-44(http://unicode.org/reports/tr44/#Property_Definitions

描述

您可以使用Canonical_Combining_Class字段(请参阅http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values)过滤所需的确切字符。 不能更精确,因为"重音"有点模糊:-) 您甚至可能还需要查看General_Category以获得正确的过滤器(并排除某些标记,符号或标点符号)。

执行此操作的脚本肯定比尝试弄乱文本编辑器更好。 结合字符的特征之一是它们结合:-) 所以你可能会得到各种令人费解的结果(例如:http://www.siao2.com/2006/02/17/533929.aspx: - )