SQL中的线性回归置信区间

时间:2009-07-23 12:52:51

标签: sql math statistics

我正在使用一些相当直接的SQL代码来计算一些(x,y)数据点的回归系数(截距和斜率),使用最小二乘法。这给了我一个很好的最佳线条数据。但是,我们希望能够看到最佳拟合线的95%和5%置信区间(下面的曲线)。

link text
(来源:curvefit.com

这些意味着真线的概率低于上曲线的概率为95%,高于低曲线的概率为95%。我该如何计算这些曲线?我已经阅读了维基百科等并完成了一些谷歌搜索,但我还没有找到可理解的数学方程式来计算它。

编辑:这是我现在所拥有的精髓。

--sample data
create table #lr (x real not null, y real not null)
insert into #lr values (0,1)
insert into #lr values (4,9)
insert into #lr values (2,5)
insert into #lr values (3,7)

declare @slope real
declare @intercept real

--calculate slope and intercept
select 
@slope = ((count(*) * sum(x*y)) - (sum(x)*sum(y)))/
((count(*) * sum(Power(x,2)))-Power(Sum(x),2)),
@intercept = avg(y) - ((count(*) * sum(x*y)) - (sum(x)*sum(y)))/
((count(*) * sum(Power(x,2)))-Power(Sum(x),2)) * avg(x)
from #lr

提前谢谢。

3 个答案:

答案 0 :(得分:1)

置信区间宽度的公式为f(x),请参见“置信区间的置信区间”

http://www.weibull.com/DOEWeb/confidence_intervals_in_simple_linear_regression.htm

该页面也会引导您完成示例计算。

答案 1 :(得分:0)

尝试此网站并向下滚动到中间。对于最佳拟合线的每个点,您都知道Z,样本大小和标准偏差。

http://www.stat.yale.edu/Courses/1997-98/101/confint.htm

答案 2 :(得分:0)

@PowerUser:他需要将方程用于双变量设置,而不是单变量设置。

马特:如果我有我的旧统计教科书,我就能告诉你你想要什么;不幸的是,我没有和我在一起,也没有从我的高中统计课程中得到我的笔记。另一方面,从我记得的情况来看,它可能只有回归线斜率的置信区间......

无论如何,这个页面有望得到一些帮助:http://www.stat.yale.edu/Courses/1997-98/101/linregin.htm