匹配正则表达式中的阿拉伯标点符号

时间:2010-11-01 15:25:01

标签: javascript regex

我正致力于语言细分项目。我想为阿拉伯语和乌尔都语语言细分提供支持。我通过在各自的语言中使用标点符号(Breaking characters)将句子分成不同的段。我正在使用Javascript正则表达式来打破句子。

noBreakRgx.lang = [/[\u06D4\u061F]+/g, /\d\u06D4/g];

breakRgx.lang = [/(.)+?([\u06D4\u061F](?=|$)|$)/g]; 

但我无法找到阿拉伯语或乌尔都语的破句。打破标点符号句子所需的建议。使用标点符号后的阿拉伯语或乌尔都语。

ARABIC FULL STOP - U+06D4
ARABIC QUESTION MARK - U+061F
ARABIC COMMA - U+060C
ARABIC SEMICOLON - U+061B
ARABIC DECIMAL SEPARATOR - U+066B

感谢高级。

0 个答案:

没有答案