regex - 正则表达式识别德语，中文和日语

时间：2014-09-30 05:19:31

标签： regex

我想使用正则表达式识别文本是中文，日文还是德文。

例如我有一些像这样的文字“MainWindow_Button_save” 它的德语翻译是“MainWindow_Button_sparen” 它的中文译名是“MainWindow_Button_保存” 日语是“MainWindow_Button_保存”。

我想要一个找到前缀"MainWindow_Button的正则表达式，并确定以下文本是中文/日文/德文。我对这段文字不太关心。我唯一关心的是它所处的三种语言中的哪一种。

我所做的只是"^MainWindow_Button_[^a-zA-Z]*"，但我如何识别语言？

答案 0 :(得分：0)

我尝试使用例如here

的正则表达式

我建议得到中文/日文的第一个和最后一个字符并加上正则表达式＆＃34; MainWindow_Button _（ [保存] ）+＆＃ 34;，以便它匹配任何中国/日本字符

如果不使用正则表达式，我会在java中以其他方式建议如下：

在＆＃34; MainWindow_Button _＆＃34;之后读取第一个字符的UNICODE值，并验证unicode值是中文字符集还是日文字符集，如果不是两者，那么它将是德语。

答案 1 :(得分：0)

以下正则表达式将有助于提供文本为中文或日文的验证： ^ [\ u3000- \ u9FFF] + $