正则表达式识别德语,中文和日语

时间:2014-09-30 05:19:31

标签: regex

我想使用正则表达式识别文本是中文,日文还是德文。

例如我有一些像这样的文字“MainWindow_Button_save” 它的德语翻译是“MainWindow_Button_sparen” 它的中文译名是“MainWindow_Button_保存” 日语是“MainWindow_Button_保存”。

我想要一个找到前缀"MainWindow_Button的正则表达式,并确定以下文本是中文/日文/德文。我对这段文字不太关心。我唯一关心的是它所处的三种语言中的哪一种。

我所做的只是"^MainWindow_Button_[^a-zA-Z]*",但我如何识别语言?

2 个答案:

答案 0 :(得分:0)

我尝试使用例如here

的正则表达式

我建议得到中文/日文的第一个和最后一个字符并加上正则表达式" MainWindow_Button _( [保存] )+&# 34;,以便它匹配任何中国/日本字符

如果不使用正则表达式,我会在java中以其他方式建议如下:

在" MainWindow_Button _"之后读取第一个字符的UNICODE值,并验证unicode值是中文字符集还是日文字符集,如果不是两者,那么它将是德语。

答案 1 :(得分:0)

以下正则表达式将有助于提供文本为中文或日文的验证: ^ [\ u3000- \ u9FFF] + $

相关问题