在scipy中创建新的发行版

时间:2012-05-21 01:09:00

标签: python numpy scipy

我正在尝试根据我拥有的某些数据创建一个分布,然后从该分布中随机绘制。这就是我所拥有的:

from scipy import stats
import numpy

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
    return rv()

if __name__ == "__main__":
    # pretend this is real data
    data = numpy.concatenate((numpy.random.normal(2,5,100), numpy.random.normal(25,5,100)))
    d = getDistribution(data)

    print d.rvs(size=100) # this usually fails

我认为这是我想要的,但是当我尝试d.rvs()时,我经常会遇到错误(见下文),d.rvs(100)永远不会有效。难道我做错了什么?有更简单或更好的方法吗?如果它是scipy中的一个错误,有没有办法解决它?

最后,是否有更多关于在某处创建自定义发行版的文档?我发现的最好的是scipy.stats.rv_continuous文档,它非常简洁,不包含任何有用的示例。

追溯:

  

Traceback(最近一次调用最后一次):文件“testDistributions.py”,行   19,在       print d.rvs(size = 100)File“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” ,   第696行,在rvs       vals = self._rvs(* args)文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” ,   第1193行,在_rvs中       Y = self._ppf(U,* args)文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions。 PY”,   第1212行,在_ppf中       return self.vecfunc(q,* args)File“/usr/local/lib/python2.6/dist-packages/numpy-1.6.1-py2.6-linux-x86_64.egg/numpy/lib/function_base.py ”   第1862行,致电       theout = self.thefunc(* newargs)文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” ,   第1158行,在_ppf_single_call中       return optimize.brentq(self._ppf_to_solve,self.xa,self.xb,args =(q,)+ args,xtol = self.xtol)File   “/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/optimize/zeros.py”   第366行,在布伦特克       r = _zeros._brentq(f,a,b,xtol,maxiter,args,full_output,disp)ValueError:f(a)和f(b)必须有不同的符号

修改

对于那些好奇的人,按照下面答案中的建议,这里的代码有效:

from scipy import stats
import numpy

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _rvs(self, *x, **y):
            # don't ask me why it's using self._size 
            # nor why I have to cast to int
            return kernel.resample(int(self._size)) 
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
        def _pdf(self, x):
            return kernel.evaluate(x)
    return rv(name='kdedist', xa=-200, xb=200)

1 个答案:

答案 0 :(得分:7)

特别针对您的追溯:

rvs使用cdf的倒数ppf来创建随机数。由于您未指定ppf,因此它由根寻找算法brentq计算。 brentq使用下限和上限来搜索值,其中函数为零(找到x使得cdf(x)= q,q是分位数)。

限制的默认值xaxb在您的示例中太小。在创建函数实例时,可以设置以下适用于我的scipy 0.9.0,xaxb

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
    return rv(name='kdedist', xa=-200, xb=200)

目前有一个针对scipy的拉取请求来改进这一点,因此在下一个版本xaxb将自动展开以避免f(a) and f(b) must have different signs例外。

没有太多关于此的文档,最简单的是遵循一些示例(并在邮件列表中询问)。

编辑:添加

pdf :由于你也有gaussian_kde给出的密度函数,我会添加_pdf方法,这将使一些计算更有效。

edit2:添加

rvs :如果您对生成随机数感兴趣,那么gaussian_kde有一个重采样方法。可以通过从数据中采样并添加高斯噪声来生成随机样本。因此,这将比使用ppf方法的通用rv更快。我会编写一个只调用gaussian_kde的重采样方法的._rvs方法。

预计算ppf :我不知道预先计算ppf的任何一般方法。然而,我想这样做的方式(但迄今为止从未尝试过)是在许多点预先计算ppf然后使用线性插值来近似ppf函数。

edit3:关于_rvs在评论中回答Srivatsan的问题

_rvs是公共方法rvs调用的特定于分发的方法。 rvs是一种通用方法,它执行一些参数检查,添加位置和比例,并设置属性self._size,该属性是所请求的随机变量数组的大小,然后调用特定于分发的方法{{ 1}}或它是通用对应物。 ._rvs中的额外参数是形状参数,但由于在这种情况下没有参数,._rvs*x是冗余且未使用的。

我不知道**y方法的size或形状在多变量情况下的效果如何。这些发行版是针对单变量分布而设计的,可能不适用于多变量情况,或者可能需要进行一些重构。