Question

我的目标是缩放一个numpy数组，以便所有数字都在0到1之间。在sklearn.preprocessing.scale（）中，文档指出：

axis : int (0 by default)

axis used to compute the means and standard deviations along. If 0,
independently standardize each feature, otherwise (if 1) standardize each sample.

我的问题是，标准化每个功能和每个样本之间有什么区别？

Answer 1

假设您要模拟房价。然后，作为训练数据，您可能拥有三栋房屋，并考虑其面积和房间数量。在这种情况下，“区域”和“房间数”将是您的功能，而用sklearn的语言来说，这三座房子中的每座都是样本。数据将是形状为np.ndarray的{{1}}，并且您可以沿两个轴对数据进行规范化（第三个轴（在这种情况下不那么自然）可以对整个{{1 }}。哪种设置更有意义，取决于设置，但是只要您要处理的数值数据中，要比较的唯一明智的事情就是，例如，三栋房屋的面积，那么这些要素就是您要归一化的要素（整个样本）。

但是，值得注意的一件事是术语“样本”可能相当混乱。确实，在谈论samples时，通常谈论从关注人群中获得的多个点，因此在上面的示例中，您只有一个大小为3的样本。根据您提供的文档，这是而不是(2, 3)使用的术语。

sklearn中的特征和样本之间的区别？

1 个答案: