通过子类化scipy.stats.rv_continuous来创建偏斜正态分布的问题

时间:2014-07-30 17:20:52

标签: python statistics scipy

编辑:计算出发行版。并且它主要工作,除了形状参数为负时。 PDF应该适用于负形状值,但不适用于子类分布。


我正在尝试用scipy stats创建一个偏斜的正态分布。我现在只需要PDF。

我将rv_continuous子类化了,但是当我使用skew_norm.pdf(x, shape)时,我得到了一个N​​aN数组。

这是我的班级:

class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s):
        return 2 * norm.pdf(x) * norm.cdf(x * s)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

我已经尝试直接计算PDF(在课堂之外)并且有效。

此外,如果我添加*args*,我可以通过位置&像我正常分发PDF norm.pdf(x, loc=mu, scale=std)

那样缩放
class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * norm.pdf(x, *args) * norm.cdf(x * s, *args)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

感谢。


修改

我还尝试了一个简单的例子,感谢CT朱的建议。下面的代码有时会吐出一个纳米数组,有时会抛出一个值数组。

In [26]:
import scipy.stats as ss

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [27]:
data = ss.norm.rvs(0, size=100)
s = ss.skew(data)
skew_norm.pdf(data, s)

Out[28]:
array([ nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan])

编辑2:

如果形状参数是<

,则PDF会吐出NaN。 0.

我可以直接计算skewnorm PDF并且没问题。如果我尝试使用子类PDF,则返回NaN。

1 个答案:

答案 0 :(得分:4)

无法复制错误,请参阅:

In [15]:
import scipy.stats as ss
class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [17]:
skew_norm.pdf(3, 4)
Out[17]:
0.0088636968238760151

是的,您可以传递额外的*args

In [18]:

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * ss.norm.pdf(x, *args) * ss.norm.cdf(x * s, *args)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [20]:
skew_norm.pdf(3, 4, loc=0.5, scale=3)
Out[20]:
0.18786061213807126

In [21]:
skew_norm.pdf(3, s=4, loc=0.5, scale=3)
Out[21]:
0.18786061213807126
In [22]:

skew_norm.pdf(3, s=4, loc=0, scale=1)
Out[22]:
0.0088636968238760151
In [28]:
plt.plot(np.linspace(-5, 5), skew_norm.pdf(np.linspace(-5,5),4), label='Skewed')
plt.plot(np.linspace(-5, 5), ss.norm.pdf(np.linspace(-5,5)), label='Normal')
plt.legend()    
Out[28]:
[<matplotlib.lines.Line2D at 0x1092667d0>]

enter image description here

编辑:

在您的示例数据中,s为负数,这会导致生成的pdf仅包含nan,{{1}定义的默认badvalue(我认为所谓的内容) }}。

问题的根源是:有一个默认的rv_continuous方法,用于验证参数是否有效。默认设置是检查所有参数是否都是> 0。在这种情况下,它不是。

因此,解决方法是通过以下方式覆盖默认的_argcheck()方法:

_argchek()

然后它应该可以正常工作。

(Alos我建议调用附加参数class skew_norm_gen(ss.rv_continuous): def _argcheck(self, skew): return np.isfinite(skew) #I guess we can confine it to finite value def _pdf(self, x, skew): return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * skew) ,只是为了便于阅读。's'可能意味着标准偏差等。)