如何匹配不同语言的单词

时间:2011-08-02 13:59:52

标签: python

如何编写正则表达式以有效匹配瑞典语和英语单词?

我必须能够匹配Å,é和'。我认为123也是一个词。我甚至认为1:e和1st是单词......

如果我希望匹配来自俄语和日语的单词,我将如何继续。

谢谢,

百里

P.S。以下不是单词,不应匹配:


,= HELLO =,@ NEW_LINE_MARKER,可以“t,hel * o,/ new /

另外,

这个字符串“嘿!什么?是的,我来了。”应该分成:

(喂, 什么, 是的,我来了)

1 个答案:

答案 0 :(得分:4)

  

日本

在CJK文本中检测单词边界需要熟练掌握语言知识;这些文本不是用任何类型的单词分隔书写的,并且没有书面形式的独特结构,这使得一个单词与下一个单词区别开来。 More on the subject.

罗马文本(英语,瑞典语)和大多数西里尔语文本(俄语)按空格和特定标点符号(句号,逗号,短划线,但不是连字符)划分。