Question

我正在使用sci-kit learn执行多级分类任务。在我创建的设置中，我想比较不同的分类算法。

我使用管道，其中文本作为X插入，Y是类（多类，N = 5）。使用TfidfVectorizer（）在管道中提取文本特征。

KNN完成这项工作，但其他分类器给出了这个：ValueError: bad input shape (670, 5)

完整追溯：

"/Users/Robbert/pipeline.py", line 62, in <module>
train_pipeline.fit(X_train, Y_train)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/pipeline.py", line 130, in fit
self.steps[-1][-1].fit(Xt, y, **fit_params)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.py", line 138, in fit
y = self._validate_targets(y)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.py", line 441, in _validate_targets
y_ = column_or_1d(y, warn=True)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.py", line 319, in column_or_1d
raise ValueError("bad input shape {0}".format(shape))
ValueError: bad input shape (670, 5)

我使用的代码：

def read_data(f):
data = []
for row in csv.reader(open(f), delimiter=';'):
    if row:
        plottext = row[8]
        target = { 'Age': row[4] }
        data.append((plottext, target))
(X, Ycat) = zip(*data) 
Y = DictVectorizer().fit_transform(Ycat)
Y = preprocessing.LabelBinarizer().fit_transform(Y)
return (X, Y)

X, Y = read_data('development2.csv')

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=42)

###KNN Pipeline
#train_pipeline = Pipeline([
#    ('vect', TfidfVectorizer(ngram_range=(1, 3), min_df=1)),
#    ('clf', KNeighborsClassifier(n_neighbors=350, weights='uniform'))])

###Logistic regression Pipeline
#train_pipeline = Pipeline([
#    ('vect', TfidfVectorizer(ngram_range=(1, 3), min_df=1)),
#    ('clf', LogisticRegression())])

##SVC
train_pipeline = Pipeline([
('vect', TfidfVectorizer(ngram_range=(1, 3), min_df=1)),
('clf', SVC(C=1, kernel='rbf', gamma=0.001, probability=True))])

##Decision tree
#train_pipeline = Pipeline([
#    ('vect', TfidfVectorizer(ngram_range=(1, 3), min_df=1)),   
#    ('clf', DecisionTreeClassifier(random_state=0))])

train_pipeline.fit(X_train, Y_train)

predicted = train_pipeline.predict(X_test)

print accuracy_score(Y_test, predicted)

KNN如何接受阵列的形状和其他分类器不是吗？以及如何改变这种形状？

Answer 1

如果比较KNeighborsClassifier和SVC中fit（X，y）函数的文档，您将看到只有前一个函数接受[n_samples，n_outputs]形式的y。

可能的解决方案：为什么你需要LabelBinarizer？只是不要使用它。

Answer 2

如果Y向量的大小（n_samples，n_classes）并且至少包含一个具有多个非零元素的行，那么您将解决多标签分类问题。如果是这种情况，scikit-learn文档中的multiclass and multilabel算法页面会将KNN列为支持多标签分类的分类器之一。您可能想尝试该列表中的其他分类器

* sklearn.tree.DecisionTreeClassifier
* sklearn.tree.ExtraTreeClassifier
* sklearn.ensemble.ExtraTreesClassifier
* sklearn.neural_network.MLPClassifier
* sklearn.neighbors.RadiusNeighborsClassifier
* sklearn.ensemble.RandomForestClassifier
* sklearn.linear_model.RidgeClassifierCV

多类分类中的输入形状（）错误

2 个答案: