从分布图估计p值阈值

时间:2016-09-20 22:09:18

标签: r histogram distribution p-value

我的数据采用以下格式,并包含特定的统计信息

   site     LRStat
   1        3.580728
   2        2.978038
   3        5.058644
   4        3.699278
   5        4.349046

这只是数据的一个示例。

然后我通过置换随机数据对来获得零LR分布。我用它来绘制直方图,其中y轴为频率,x轴为LR统计量。如何根据零点分布确定关键的p值截止点(如下图所示)?

enter image description here

1 个答案:

答案 0 :(得分:3)

您现在拥有LR值的采样分布。 R中的quantile函数可以估算出您喜欢的“临界值”。例如,如果您认为您想要传统的0.05“p值”,您可以使用名为LR_df的数据帧进行说明,并发出以下命令:

quantile( LR_df[ , 'LRStat'] , 0.95) 

如果您想要图中的所有“概率”,您将使用与统一互补的值向量。以下代码为您提供LSstat值,其中给定比例的样本高于该值。

quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) ) 

p值只是零假设下检验统计量的抽样分布。在这种情况下,您的零假设是LRstats均匀分布。 (我知道这样说听起来很奇怪,但如果你想与统计学家争论,那就得到http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421的副本。)截止值的p值选择取决于科学或商业环境。如果你正在评估一个投资机会,截止可能是0.15,但如果你想找到新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域在他们的文献中有很多垃圾(即无法重现结果)因为它们在统计学方法上不够严格。