Question

我的数据采用以下格式，并包含特定的统计信息

   site     LRStat
   1        3.580728
   2        2.978038
   3        5.058644
   4        3.699278
   5        4.349046

这只是数据的一个示例。

然后我通过置换随机数据对来获得零LR分布。我用它来绘制直方图，其中y轴为频率，x轴为LR统计量。如何根据零点分布确定关键的p值截止点（如下图所示）？

Answer 1

您现在拥有LR值的采样分布。 R中的quantile函数可以估算出您喜欢的“临界值”。例如，如果您认为您想要传统的0.05“p值”，您可以使用名为LR_df的数据帧进行说明，并发出以下命令：

quantile( LR_df[ , 'LRStat'] , 0.95)

如果您想要图中的所有“概率”，您将使用与统一互补的值向量。以下代码为您提供LSstat值，其中给定比例的样本高于该值。

quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) )

p值只是零假设下检验统计量的抽样分布。在这种情况下，您的零假设是LRstats均匀分布。（我知道这样说听起来很奇怪，但如果你想与统计学家争论，那就得到http://amstat.tandfonline.com/doi/pdf/10.1198/000313008X332421的副本。）截止值的p值选择取决于科学或商业环境。如果你正在评估一个投资机会，截止可能是0.15，但如果你想找到新的科学知识，我认为它应该更小（更严格的测试）。分子遗传学领域在他们的文献中有很多垃圾（即无法重现结果）因为它们在统计学方法上不够严格。

从分布图估计p值阈值

1 个答案: