power-law - 测试合成数据的幂律假设

我正在尝试使用最大似然估计来检查某些合成数据集中是否存在幂律。我正在遵循this paper中描述的方法。在这种方法中，将观测矢量x馈送到代码，然后代码告知馈送数据来自幂律分布的置信水平（p值）。对于单个数据集，这非常简单。但是，现在我尝试使用相同的代码来处理稍微不同的情况。所以我做了很多（比如说100）某个过程的随机模拟，每个都返回一个长度为1000的向量x。然后我对所有这100个实现的分布进行平均，找到平均x，其分布在log-log上看起来大致笔直情节。为了使用上面的代码找到p值，我必须提供对应于平均分布的观察向量。但是，这里我遇到了问题。最初我只是将平均分布乘以1000，并将该产品的最接近整数作为观察某个值的频率。但有时在100个实现中很少出现某个值，然后在构造向量时根本不会出现相应的值。因此，我放弃了分布尾部的所有值。有没有更好的方法来计算这种平均分布的p值来检验幂律假设？

测试合成数据的幂律假设

1 个答案: