如何从数据集中删除低频和高频字?

时间:2014-02-01 15:12:58

标签: machine-learning text-classification pruning

是否有可用的工具可以从我的数据集中修剪高频和低频项?

2 个答案:

答案 0 :(得分:0)

常用的算法是Grubbs' test。我真的不知道Java中的实现,但是如果你愿意用不同的语言进行预处理,那么R中的outliers package包含了Grubbs的测试。要消除多个异常值,您可以重复应用Grubbs的测试。

编辑:

我刚看到我错过了文本分类标记。如果你只是想让过于频繁的术语偏离你的结果,那么TF-IDF可能对你很有意思。这当然不会降低维度。

答案 1 :(得分:0)

Stop words是在自然语言处理中消除(非常)高频词的常用技术。

低频词通常很有趣。你真的想要消除它们吗?