sklearn中的特征和样本之间的区别?

时间:2018-07-26 14:58:40

标签: python numpy scikit-learn

我的目标是缩放一个numpy数组,以便所有数字都在0到1之间。在sklearn.preprocessing.scale()中,文档指出:

axis : int (0 by default)

axis used to compute the means and standard deviations along. If 0,
independently standardize each feature, otherwise (if 1) standardize each sample.

我的问题是,标准化每个功能和每个样本之间有什么区别?

1 个答案:

答案 0 :(得分:2)

假设您要模拟房价。然后,作为训练数据,您可能拥有三栋房屋,并考虑其面积和房间数量。在这种情况下,“区域”和“房间数”将是您的功能,而用sklearn的语言来说,这三座房子中的每座都是样本。数据将是形状为np.ndarray的{​​{1}},并且您可以沿两个轴对数据进行规范化(第三个轴(在这种情况下不那么自然)可以对整个{{1 }}。哪种设置更有意义,取决于设置,但是只要您要处理的数值数据中,要比较的唯一明智的事情就是,例如,三栋房屋的面积,那么这些要素就是您要归一化的要素(整个样本)。

但是,值得注意的一件事是术语“样本”可能相当混乱。确实,在谈论samples时,通常谈论从关注人群中获得的多个点,因此在上面的示例中,您只有一个大小为3的样本。根据您提供的文档,这是而不是(2, 3)使用的术语。