machine-learning - 文本分类：使用MinMax-Scaler的单词

文本分类：使用MinMax-Scaler的单词

时间：2016-05-03 12:58:35

标签： machine-learning scikit-learn text-classification

我尝试根据文字袋的表示对文件进行分类（特点：1000）。对于分类，我使用SVM，似乎有时SVM不会终止并无休止地运行。（运行sci-kit：SVC（C = 1.0，内核='线性'，cache_size = 5000，verbose = True））现在我正在寻找解决方案，我正在考虑应用MinMax-Scaler来获得计算有效的文档表示。但是，我是否通过功能标准化搞砸了我的单词表示？

提前致谢！

1 个答案:

答案 0 :(得分：0)

它确实终止，只是非常缓慢。缩放你的文字袋不会“搞砸”任何东西 - 实际上它是非常常见的技术，你宁愿很少使用一个单词的模型 - 你要么使用一组单词（按定义缩放）或som scale normalized bag of单词，例如tf-idf（通常比通过min max“压缩”更好）。一般来说，minmax是非常粗糙的技术，对异常值非常敏感（因此，如果你有一个由1000个单词“foo”组成的文档，你的“foo”维度将被压缩1000，即使它只是一个异常值）。因此 - 更喜欢tfidf或至少是标准的缩放器。