data-mining - 数据挖掘是否支持除英语之外的其他语言？

答案和往常一样：是和否。

虽然实际上没有理论上的问题但是亚洲语言存在一些实际问题。文本的典型数据挖掘管道由

组成

词干（运行 - ＆gt;运行）
删除停用词（a，the，...）和其他无效的词语
富集步骤，例如短语检测
tokeniztion
转换成单词包（Hello World，Hello Japan - ＆gt;（Hello：2，World：1，Japan：1），它计算每个单词的频率。
应用您最喜欢的文本挖掘技术，如LDA或SVM

第一步和第四步实际上是一些亚洲语言的问题。在欧洲语言，尤其是英语。英语单词从空格开始，以空格结束。在某些亚洲语言中，如果不理解句子的含义，就无法将一系列字符标记为单词。事实上，在某些语言中，这是非常困难的。（c.f.关于令牌化的维基对于使用古代希腊语，中文，[1]或泰语等没有单词边界的scripttio continua编写的语言来说，标记化特别困难。）

同样阻止可能会造成问题。在英语中，它是非常好理解的。在其他语言中，它取决于。

如果你能解决这两个问题，你也可以在亚洲语言中应用典型的文本挖掘技术。

数据挖掘是否支持除英语之外的其他语言？

1 个答案: