对于给定的X值,在CDF曲线上返回Y概率

时间:2016-07-28 07:47:55

标签: google-sheets statistics

我有一张CDF曲线,如我的Google表格文档所示:

CDF curve image

我想做的是能够说:“收入中至少有25%的可能性”。即使使用一个普通的老统治者,我也可以看到收入至少为€6000的可能性约为83%,但是,对于任何给定的€b,我似乎无法在单元格中动态获得确切的数字。

到目前为止我遇到的解决方案最接近的是使用以下内容,我认为这将模拟当前的CDF曲线作为正态分布。

= 1-NORMDIST(6000,AVERAGE(F6:F31),STDEV(F6:F31),TRUE)

然而,这似乎返回的数字远低于我从图表中读取的数字(上面的函数返回0.664507462),因此normdist可能没有准确地描述CDF曲线。

我也发现了一些使用Excel插件或使用MATLAB的解决方案,但这些都不适用,因为我使用的是Google表格。

任何知道正确解决方案的人?提前谢谢!

2 个答案:

答案 0 :(得分:2)

问题在于您在概览上运行预测,而不是根据铲斗尺寸加权 下图显示了这个问题,在6000美元时,正态分布(红色)的概率低于数据(黑色)。 Wrong CDF

您可以像这样计算整体平均值

=SUMPRODUCT(D6:D31, F6:F31) / SUM(D6:D31)

这样的整体标准偏差

=SQRT(SUMPRODUCT((F6:F31 - F36)^2, D6:D31) / (SUM(D6:D31) - 1))

其中F36是上面计算的平均值。

如果您现在将这两个参数插入到公式中,而不是概览的平均值和标准偏差,则得到79%的估计值(绿线),它与实际测量的累积分布非常接近。

Fixed CDF

答案 1 :(得分:1)

由于CDF是一个相对平滑的函数,您可以使用线性插值来根据包围已知百分比来估算给定收入值的未知百分比。对于你的6000例子:

6000    - 5701.57   p  - 85
----------------- = ------- => p = 82.7416 (approximately)
6890.85 - 5701.57   76 - 85

如果线性插值不够精确,可以满足您的需要,可以尝试高阶多项式插值。

相关问题