多变量线性回归R平方而不存储输入数据

时间:2012-05-03 02:23:32

标签: statistics scipy

任何人都可以很好地参考如何在不保存输入数据的情况下进行多元普通线性回归(并得到结果的R平方)。用例是一个存储太多行的数据集。回归可以通过累积x [i] * x [j]和y * x [i],然后从那里进行矩阵数学来获得,但我找不到类似的公式来获取统计数据,当我是完成(初学者的R平方)。感谢。

1 个答案:

答案 0 :(得分:1)

我没有很好的参考,但我接近它的方式是 扩展平方和的表达式,然后编写它们 就你积累的期望而言。

  • 我使用<.>表示对数据行进行平均, 所以<y>是y值的平均值, 等等

  • 在任何时候我们都可以得到回归系数a [i]和b 您在问题中指出的矩阵<x[i]*x[j]>和向量<y*x[i]>

  • 下面我将使用sum_i{ a[i]*x[i] }来表示组件的总和 包含自变量。
  • 设N是使用的数据行数

计算解释的均方偏差的方法是:

SS_reg/N = < (f -<y> )^2 >    

         = < ( sum_i {a[i]*x[i] } + b - <y> )^2 > 
         = < sum_i { a[i]^2*x[i]^2}  +b^2 +<y>^2 +sum_i{ 2*b*a[i]*x[i]}-2*<y>* sum_i{a[i]*x[i]}-2*b*<y> >
         = sum_i { a[i]^2*<x[i]*x[i]> } +
           b^2 +
           <y>^2 + 
           2*b*sum_i{a[i]*<x[i]>} -
           2*<y>*sum_i{ a[i]*<x[i]>} -
           2*b*<y>

您已将<x[i]*x[i]>维护为矩阵的对角线元素 导出回归系数。 您还需要维护自变量的平均值 (<x[i]>i以及因变量(<y>

可以对总平均值或残差均方值进行类似的扩展 错误,然后用于计算R ^ 2值。