Regexp希腊字符数量

时间:2011-05-07 09:20:20

标签: ruby regex utf-8

我处理包含希腊语和英语(拉丁语)文本的字符串。我想使用正则表达式来捕获所有包含4个或更多字符的希腊单词。

使用正则表达式手册我发现我可以使用\ p {希腊语}来获取所有希腊词和\ w {4,}以获取4个以上的字符。但是,从我做的各种测试来看,这两者并不一致。

有没有办法用1 regexp表达式做我想做的事情?字符串是UTF-8,来自推文。

此致

1 个答案:

答案 0 :(得分:3)

您使用的是UTF-8模式修饰符吗?

/\p{Greek}{4,}/u