无法将scikit-learn的DecisionTreeClassifier的输出保存为CSV

时间:2014-07-08 20:13:48

标签: python csv numpy scikit-learn

我有以下代码,用于为scikit-learn的DecisionTreeClassifier提供一些培训和测试数据。它一直工作,直到我希望将.predict函数的输出保存为CSV。到目前为止的代码是:

import numpy as np
import pandas as pd
from sklearn import tree

with open('data/training.csv', 'r') as f:

    df = pd.read_csv(f, index_col=None)

df['Num_Labels'] = df.Label.map(lambda x: '-1' if x == 's' else '1')  # Convert labels to '0' or '1'.

Train_values = df.iloc[:, 1:31].values
Train_labels = df.iloc[:, 33:34].values
# print Train_values.values
# print type(Train_values.values)

with open('data/test.csv', 'r') as f2:

    df2 = pd.read_csv(f2, index_col=None)

Test_values = df2.iloc[:, 1:31].values

# #----------------------------------------------------------------------------------------------

X = Train_values
Y = Train_labels

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, Y)

Pred = clf.predict(Test_values)

#print Pred
#print type(Pred[:1])
np.savetxt('Output.csv', Pred, delimiter =' ')

终端输出如下:

/usr/bin/python2.7 /home/amit/PycharmProjects/HB/Read.py
Traceback (most recent call last):
  File "/home/amit/PycharmProjects/HB/Read.py", line 38, in <module>
    np.savetxt('Output.csv', Pred, delimiter =' ')
  File "/usr/lib/python2.7/dist-packages/numpy/lib/npyio.py", line 1073, in savetxt
    fh.write(asbytes(format % tuple(row) + newline))
TypeError: float argument required, not str
['1' '-1' '-1' ..., '1' '1' '1']
<type 'numpy.ndarray'>

Process finished with exit code 1

1 个答案:

答案 0 :(得分:2)

Pred最有可能出现问题。 savetxt中的npyio.py代码非常简单:

for row in X:
    fh.write(asbytes(format % tuple(row) + newline))

这将逐行读取X(输入数组,本例中为Pred)。在这种情况下,格式字符串format %f %f %f具有与一行中的元素(即列数)一样多的占位符。错误消息抱怨向量row中除浮点值之外还有其他内容。此外,错误消息看起来好像有短文本字符串而不是浮动。

我的猜测是Predndarray。如果它不是,那将是奇怪的。但是,它可能是一个字符串数组而不是浮点数或其他数字!

你几乎可以在尝试时跟踪它,但是:

print Pred.dtype

如果它是S3,那么你有一个字符串数组。在这种情况下,我建议您检查XY的数据类型是否正确。如果它们不是数字,事情可能会有点奇怪。