使用新属性和/或值识别数据向量

时间:2015-03-06 22:04:58

标签: python scikit-learn

我正在使用scikit-learn建立分类系统。在训练分类器后,我想保存它以便重复使用,以及必要的转换,例如DictVectorizer。

我正在寻找一种方法来过滤未分类数据的输入流,这些数据将输入到特征变换和分类器中。理想情况下,我想删除和标记包含分类属性和/或新属性的新值的向量。

我已经使用DictVectorizer.restrict()方法来过滤输入数据,但这只会导致向量化器过滤新属性并将新值归零,我还希望将不一致的数据放在一边。是否有一种简单的方法来提取具有不在初始数据集中的值和属性的行?

1 个答案:

答案 0 :(得分:1)

没有内置到scikit-learn中的任何内容,因为删除行是在当前API中不容易完成的事情。 编写一个基于DictVectorizer输出的自定义函数/类应该很容易。

相关问题