剩余估算

时间:2018-03-08 20:01:13

标签: python scikit-learn

我有这样的pipline:

attribute_est = Pipeline([
     ('jsdf', DictVectorizer()),
     ('clf', Ridge())
    ])

在那里,我传递的数据如下:

{
  'Master_card' : 1,
  'Credit_Cards': 1,
  'casual_ambiance': 0,
  'Classy_People': 0
}

我的模型不能很好地预测。现在我被提议:

  

您可能会发现很难找到效果良好的单个回归量   足够。一种常见的解决方案是使用线性模型来拟合线性   一些数据的一部分,并使用非线性模型来拟合残差   线性模型不适合。建立一个残差估计量   一个论证另外两个估算师。它应该使用第一个适合   原始数据和第二个适合第一个的残差。

残差估算器的含义是什么?你能给我一个例子吗?

1 个答案:

答案 0 :(得分:0)

residual是真实数据值与某些估算器预测的值之间的误差。最简单的例子是线性回归,其中残差是对某些数据的最佳线性拟合与实际数据点之间的距离。线的最小二乘拟合最小化了这些平方残差的总和。

您给出的建议建议使用两个估算器。第一个将适合数据本身。在线性回归的情况下,这是一个最小二乘线性拟合,可能使用类似scikit-learn's linear regression model的东西。

然后,第二个估计器将尝试拟合残差,即,对数据的线性拟合与实际数据点之间的差异。在最小二乘的情况下,这实际上是对数据进行去除,然后拟合剩下的内容。如果您希望实际的数据是具有加性高斯噪声的线,则可以将其选为高斯分布。但是,如果您对基础噪声分布有所了解,那么将其用作第二个估算器。

相关问题