如何更改Weka中的max属性?

时间:2014-09-05 13:38:25

标签: java nlp weka

我正在使用Weka使用 StringToWordVector 类创建Term Document Matrix。但是,无论输入语料库的大小如何,我只能看到500个术语/" num属性"输出时,当我使用R tm 包时,同一语料库生成549条款。

我尝试更改 wordsToKeep 设置,但这不会影响生成的术语总数。对我来说,似乎有一些默认设置我需要更改以增加生成的术语。但是,我没有找到这样的配置。

我正在使用Weka 3.6.11和NGramTokenizer。

如何让Weka生成更多条款?

1 个答案:

答案 0 :(得分:0)

我升级到Weka 3.7.11并尝试了这个并且它有效。

StringToWordVector filter = new StringToWordVector(); 
filter.setWordsToKeep(Integer.MAX_VALUE);