Question

我有两种类型的数据列表，历史数据和模拟数据，我想要相互比较，看看它们是否具有相同的分布。我的代码如下：

import scipy.stats as stats

data_hist = [164, 157, 145, 113, 127, 192, 214, 193, 107, 95, 60, 55, 30, 19, 22, 22, 19, 20]
date_sim1 = [160, 174, 142, 121, 122, 192, 198, 179, 119, 107, 63, 50, 26, 17, 16, 22, 23, 23] 
date_sim2 = [181, 130, 152, 114, 122, 198, 183, 192, 105, 100, 85, 42, 37, 26, 25, 30, 17, 15] 
print(stats.chisquare(date_sim1, f_exp=data_hist))
print(stats.chisquare(date_sim2, f_exp=data_hist))

代码提供以下输出：

Power_divergenceResult(statistic=12.11387994054504, pvalue=0.79319278886052769)
Power_divergenceResult(statistic=34.413397609752003, pvalue=0.0074220617004927226)

我使用excel中的F-test对相同的数据列表进行了比较，得到的P值分别为0.939和0.849。

现在我的问题是我使用正确的卡方函数计算P值，我如何解释它以知道我是否应该拒绝零假设。使用不同方法时，为什么P值存在很大差异。

比较分布与python中的卡方

0 个答案: