有关新型置信区间的问题

时间:2019-05-07 16:01:45

标签: machine-learning statistics computer-science probability data-science

我想出了以下结果,并在许多数据集上进行了测试,但是我还没有正式的证据:

定理 :任意置信区间的宽度L渐近地等于(因为n趋于无穷大)等于n的幂函数,即L = A / n ^ B,其中A和B是两个正常数,具体取决于数据集,而n是样本大小。

有关详细信息,请参见herehere。 B指数似乎在时间序列上与Hurst指数非常相似,不仅在表示方面,而且在其取值上:B = 1/2对应于完美数据(无自相关或不合需要特征),并且B = 1对应于通常具有强自相关性的“不良数据”。

请注意,B = 1/2是当今每个人所使用的,假设观测值是独立且相同分布的,并且具有基本正态分布。我还设计了一种使间隔宽度收敛到零更快的方法:O(1 / n)而不是O(1 / SQRT(n))。这也将在第3.3节中介绍。在我关于重采样(here)的文章中,我在这种情况下的方法似乎与所谓的二阶精确间隔(通常用现代版本的自举实现,请参见here)非常相关。

我的问题是我的定理是否是原始的,突破性的和正确的,以及有人将如何证明(或反驳)。

Example of Confidence Interval

Perl code to produce confidence intervals for the correlation

1 个答案:

答案 0 :(得分:0)

第一个问题是,您所说的置信区间是什么?

假设我使用核密度估计器对密度概率函数进行非参数估计。 间隔置信度在此设置中没有意义。但是,您可以计算出某种程度,这就是内核密度估计器与目标函数收敛的“速度”。根据功能之间选择的距离的选择,可以获得不同的收敛速度。例如,距离$ L ^ {\ infty} $的最佳速度取决于$ \ log(n)$因子。

通过在第一篇文章中给自己一个反例的方式。

所以对我来说,您的定理不存在有两个原因:

  1. 目前尚不清楚,您需要准确指定置信区间的含义。您需要说说取决于数据集的意思(它取决于观测值的数量$ N $吗?)

  2. 有一个“反例”,因为估计量收敛的渐近速度可能比您说的复杂。

相关问题