Question

我有这样的pipline：

attribute_est = Pipeline([
     ('jsdf', DictVectorizer()),
     ('clf', Ridge())
    ])

在那里，我传递的数据如下：

{
  'Master_card' : 1,
  'Credit_Cards': 1,
  'casual_ambiance': 0,
  'Classy_People': 0
}

我的模型不能很好地预测。现在我被提议：

您可能会发现很难找到效果良好的单个回归量足够。一种常见的解决方案是使用线性模型来拟合线性一些数据的一部分，并使用非线性模型来拟合残差线性模型不适合。建立一个残差估计量一个论证另外两个估算师。它应该使用第一个适合原始数据和第二个适合第一个的残差。

残差估算器的含义是什么？你能给我一个例子吗？

Answer 1

residual是真实数据值与某些估算器预测的值之间的误差。最简单的例子是线性回归，其中残差是对某些数据的最佳线性拟合与实际数据点之间的距离。线的最小二乘拟合最小化了这些平方残差的总和。

您给出的建议建议使用两个估算器。第一个将适合数据本身。在线性回归的情况下，这是一个最小二乘线性拟合，可能使用类似scikit-learn's linear regression model的东西。

然后，第二个估计器将尝试拟合残差，即，对数据的线性拟合与实际数据点之间的差异。在最小二乘的情况下，这实际上是对数据进行去除，然后拟合剩下的内容。如果您希望实际的数据是具有加性高斯噪声的线，则可以将其选为高斯分布。但是，如果您对基础噪声分布有所了解，那么将其用作第二个估算器。