修改weka stemmer for persian text

时间:2013-12-13 16:48:12

标签: text classification weka stemming persian

我想使用weka进行波斯文本的文本分类。但我有一个问题。

波斯语中的Tokenizer,stoplist和stemmer与英语中的不同。所以我应该在weka的界面中使用我的词干分析器,标记器和停止列表,有一个使用我自己的停止列表但是没有办法改变词干分析器和标记符。

我想知道在没有修改weka的源代码的情况下有没有改变它们?

因为我是java的新手,我不知道应该如何修改weka源代码。

1 个答案:

答案 0 :(得分:0)

我找到了答案!没有修改weka's源代码就不可能做到这一点 我被迫修改weka's源代码。我有这么多麻烦。因为我是java的新手!所以我简单地修改weka's代码以帮助其他人: 首先,您应该设置此链接中描述的java环境变量: http://www.ntu.edu.sg/home/ehchua/programming/howto/Environment_Variables.html 然后安装此链接中描述的ant: http://ant.apache.org/bindownload.cgi 最后看这个视频,看看你应该如何修改weka的代码: http://www.youtube.com/watch?v=buCpG7uV_v4