machine-learning - 如何从数据集中删除低频和高频字？ - Thinbug

如何从数据集中删除低频和高频字？

时间：2014-02-01 15:12:58

标签： machine-learning text-classification pruning

是否有可用的工具可以从我的数据集中修剪高频和低频项？

2 个答案:

答案 0 :(得分：0)

常用的算法是Grubbs' test。我真的不知道Java中的实现，但是如果你愿意用不同的语言进行预处理，那么R中的outliers package包含了Grubbs的测试。要消除多个异常值，您可以重复应用Grubbs的测试。

编辑：

我刚看到我错过了文本分类标记。如果你只是想让过于频繁的术语偏离你的结果，那么TF-IDF可能对你很有意思。这当然不会降低维度。

答案 1 :(得分：0)

Stop words是在自然语言处理中消除（非常）高频词的常用技术。

低频词通常很有趣。你真的想要消除它们吗？