分类器的性质和冗余

时间:2019-01-14 15:54:25

标签: python scikit-learn classification

我正在分类任务中应用一组线性和非线性分类模型。输入数据是语言向量(CountVectorizer,Word2Vec)和二进制标签。在scikit-learn中,我选择了以下估算器:

LogisticRegression(),
LinearSVC(),
XGBClassifier(),

SGDClassifier(),
SVC(), # Radial basis function kernel
BernoulliNB(), # Naive Bayes seems widely used for LV models
KNeighborsClassifier(),
RandomForestClassifier(),
MLPClassifier()
  1. 问题:我是否正确LinearSVC()是线性的? 分类器,至少对于二进制估计器而言?
  2. 问题:专家认为,分类器之间是否存在重大冗余?

感谢您的澄清。

1 个答案:

答案 0 :(得分:2)

LogisticRegression()LinearSVC()SGDClassifier()BernoulliNB()是线性模型。 使用默认的损失函数SGDClassifier()可以用作线性SVM,对数损失可以作为对数回归,因此这三个之一是多余的。另外,您可以用LogisticRegression()代替LogisticRegressionCV()XGBClassifier()具有针对正则化超参数的内置优化。

sklearn和其他所有非线性变量。

该列表似乎包括所有主要的pipenv分类器。