unicode - 不可还原的石墨烯簇在unicode

不可还原的石墨烯簇在unicode

时间：2015-08-13 10:06:08

标签： unicode text-segmentation

我认为“用户感知角色”（以下称为UPC）迭代器在unicode库中非常有用。 UPC我的意思是unicode standard annex 29中讨论的意义，这是用户认为是一个字符，但可能在unicode中表示为代码点或字形集群。由于我通常使用拉丁语言，所以我总是提出一些例子，例如“我想将ü作为一个UPC处理，无论UPC是字形集群还是单个代码点”。

反对UPC迭代器（或字形集群迭代器，请选择）计数器的同事“您可以规范化到NFC，然后使用代码点迭代”，并且“没有用于字形集群迭代的用例”。

我一直在考虑以拉丁为中心的用例，这可能无法很好地转换为unicode Universe - 就像我正在做终端输出，我想将列填充到N列宽度，所以我想知道字符串中有多少个UPC ......

我想我想知道的是：

是否存在无法归一化为单一代码点的有意义的字形集群？西方用户是否有可能发生的事情？我假设韩国语或阿拉伯语就是这种情况，但我不得不承认在那里完全无知。
是否有其他语言提供UPC / grapheme集群迭代/操作？是否有Unicode规范的任何建议？

2 个答案:

答案 0 :(得分：1)

目前还不清楚UAX #29如何解答您的问题：

有许多这样的字素集群，即使对于仅使用拉丁字母的语言，因为并非所有组合标记都具有包含所有其他字母/表格的成分 - 例如，{ {3}}。 UAX＃29中的表1a有几个非拉丁语的例子。
这是UAX＃29的目的：将字形集群操作推广到Unicode支持的所有语言。

答案 1 :(得分：0)

（1）西方用户中有可能会发生这种情况吗？

??（竖起大拇指+浅肤色）。可能会发生：在北半球易于访问表情符号的应用程序上的任何地方。

（2）是否有其他语言提供UPC /字形群集的迭代/操作？

Rust的unicode_segmentation板条箱（库）。