数据挖掘是否支持除英语之外的其他语言?

时间:2015-01-28 07:43:17

标签: data-mining mahout

我是数据挖掘的新手。 我想做一些数据挖掘,而数据不是英文,它们是日文或中文的措辞。

数据挖掘是否支持这些语言? 如果是的话,我们怎样才能实现?任何工具和博客。

感谢您能提供帮助。

1 个答案:

答案 0 :(得分:0)

答案和往常一样:是和否。

虽然实际上没有理论上的问题但是亚洲语言存在一些实际问题。文本的典型数据挖掘管道由

组成
  • 词干(运行 - >运行)
  • 删除停用词(a,the,...)和其他无效的词语
  • 富集步骤,例如短语检测
  • tokeniztion
  • 转换成单词包(Hello World,Hello Japan - >(Hello:2,World:1,Japan:1),它计算每个单词的频率。
  • 应用您最喜欢的文本挖掘技术,如LDA或SVM

第一步和第四步实际上是一些亚洲语言的问题。在欧洲语言,尤其是英语。英语单词从空格开始,以空格结束。在某些亚洲语言中,如果不理解句子的含义,就无法将一系列字符标记为单词。事实上,在某些语言中,这是非常困难的。 (c.f.关于令牌化的维基对于使用古代希腊语,中文,[1]或泰语等没有单词边界的scripttio continua编写的语言来说,标记化特别困难。)

同样阻止可能会造成问题。在英语中,它是非常好理解的。在其他语言中,它取决于。

如果你能解决这两个问题,你也可以在亚洲语言中应用典型的文本挖掘技术。