测试合成数据的幂律假设

时间:2015-05-06 10:48:38

标签: power-law

我正在尝试使用最大似然估计来检查某些合成数据集中是否存在幂律。我正在遵循this paper中描述的方法。在这种方法中,将观测矢量x馈送到代码,然后代码告知馈送数据来自幂律分布的置信水平(p值)。对于单个数据集,这非常简单。但是,现在我尝试使用相同的代码来处理稍微不同的情况。所以我做了很多(比如说100)某个过程的随机模拟,每个都返回一个长度为1000的向量x。然后我对所有这100个实现的分布进行平均,找到平均x,其分布在log-log上看起来大致笔直情节。为了使用上面的代码找到p值,我必须提供对应于平均分布的观察向量。但是,这里我遇到了问题。最初我只是将平均分布乘以1000,并将该产品的最接近整数作为观察某个值的频率。但有时在100个实现中很少出现某个值,然后在构造向量时根本不会出现相应的值。因此,我放弃了分布尾部的所有值。有没有更好的方法来计算这种平均分布的p值来检验幂律假设?

1 个答案:

答案 0 :(得分:0)

总而言之,您是否尝试从数百种数据实现中获得最佳效果?在模拟数据时,我想在所有模拟中噪声是恒定的,并且每个模拟中的数字相同,因此每个实现都具有相同的权重?在这种情况下,将它们全部混合在一起并根据参数计算每个x的ay(假设您只是将功率图转换为y = mx + c)m和c并根据样本中的噪声询问,是什么模拟值的概率。将所有x的多个一起重复,然后对m和c的不同值重复(可能需要查看Gibbs采样)。然后,您可以使用m和c的值,这些值可以提供最高概率。