Question

我有两个数组，分别包含x-和y-数据。

此数据显示对数正态行为。我需要一个拟合图以及mu和sigma来进行一些统计。

我进行了拟合，以计算mu，sigma以及进一步的一些统计值。（请参见下面的代码）

我获得了比例因子，我必须使用该因子将分布与数据点上的积分相乘。

以下代码可以正常工作。我现在的问题是，是否（我确定）有更好的方法来做到这一点？感觉像是一种变通办法，有时会起作用。我想要一种更好的方法，因为我必须绘制数百个。

我的代码（很长一段时间，我想包含除原始数据导入之外的所有内容）：

import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

# produce plot True/False
ploton = True

x0=np.array([3.58381e+01, 3.27125e+01, 2.98680e+01, 2.72888e+01, 2.49364e+01,
   2.27933e+01, 2.08366e+01, 1.90563e+01, 1.74380e+01, 1.59550e+01,
   1.45904e+01, 1.33460e+01, 1.22096e+01, 1.11733e+01, 1.02262e+01,
   9.35893e+00, 8.56556e+00, 7.86688e+00, 7.20265e+00, 6.59782e+00,
   6.01571e+00, 5.53207e+00, 5.03979e+00, 4.64415e+00, 4.19920e+00,
   3.83595e+00, 3.50393e+00, 3.28070e+00, 3.00930e+00, 2.75634e+00,
   2.52050e+00, 2.31349e+00, 2.12280e+00, 1.92642e+00, 1.77820e+00,
   1.61692e+00, 1.49094e+00, 1.36233e+00, 1.22935e+00, 1.14177e+00,
   1.03078e+00, 9.39603e-01, 8.78425e-01, 1.01490e+00, 1.07461e-01,
   4.81523e-02, 4.81523e-02, 1.00000e-02, 1.00000e-02])

y0=np.array([3.94604811e+04, 2.78223936e+04, 1.95979179e+04, 2.14447807e+04,
   1.68677487e+04, 1.79429516e+04, 1.73589776e+04, 2.16101026e+04,
   3.79705638e+04, 6.83622301e+04, 1.73687772e+05, 5.74854475e+05,
   1.69497465e+06, 3.79135941e+06, 7.76757753e+06, 1.33429094e+07,
   1.96096415e+07, 2.50403065e+07, 2.72818618e+07, 2.53120387e+07,
   1.93102362e+07, 1.22219224e+07, 4.96725699e+06, 1.61174658e+06,
   3.19352386e+05, 1.80305856e+05, 1.41728002e+05, 1.66191809e+05,
   1.33223816e+05, 1.31384905e+05, 2.49100945e+05, 2.28300583e+05,
   3.01063903e+05, 1.84271914e+05, 1.26412781e+05, 8.57488083e+04,
   1.35536571e+05, 4.50076293e+04, 1.98080100e+05, 2.27630303e+05,
   1.89484527e+05, 0.00000000e+00, 1.36543525e+05, 2.20677520e+05,
   3.60100586e+05, 1.62676486e+05, 1.90105093e+04, 9.27461467e+05,
   1.58373542e+05])


Dnm = x0
dndlndp  = y0



#lognormal PDF:
def f(x, mu, sigma) :
    return 1/(np.sqrt(2*np.pi)*sigma*x)*np.exp(-((np.log(x)-mu)**2)/(2*sigma**2))

#normalizing y-values to obtain lognormal distributed data:
y0_normalized = y0/np.trapz(x0.ravel(), y0.ravel())

#calculating mu/sigma of this distribution:
params, extras = curve_fit(f, x0.ravel(), y0_normalized.ravel())

median = np.exp(params[0])
mu = params[0]
sigma = params[1]

#output of mu / sigma / calculated median:
print "mu=%g, sigma=%g" % (params[0], params[1])
print "median=%g" % median

#new variable z for smooth fit-curve:
z = np.linspace(0.1, 100, 10000)
#######################

Dnm = np.ravel(Dnm)
dndlndp = np.ravel(dndlndp)

Dnm_rev = list(reversed(Dnm))
dndlndp_rev = list(reversed(dndlndp))

scalingfactor = np.trapz(dndlndp_rev, Dnm_rev, dx = np.log(Dnm_rev))

#####################

#plotting
if ploton:
    plt.plot(z, f(z, mu, sigma)*scalingfactor, label="fit", color = "red")
    plt.scatter(x0, y0, label="data")
    plt.xlim(3,20)
    plt.xscale("log")
    plt.legend()

EDIT1 ：也许我应该补充一点，我不知道为什么使用

计算的比例因子

scalingfactor = np.trapz(dndlndp_rev, Dnm_rev, dx = np.log(Dnm_rev))

是正确的。这只是尝试和错误。我真的很想知道，为什么这样做会成功，因为所有合并箱的“区域”是：

N = np.trapz(dndlndp_rev, np.log(Dnm_rev), dx = np.log(Dnm_rev))

因为垃圾箱的宽度是log（Dnm）。

EDIT2 ：感谢您的所有回答。我将数组复制到代码中，该代码现在可以运行了。我想简化这个问题，因为我认为由于英语不好，我无法说出我真正想要的是什么：

我有一组对数正态数据。上面的代码使我可以计算mu和sigma。为此，我需要规范化数据，并且该函数下的区域从现在开始= 1。

为了用计算出的mu和sigma绘制对数正态函数，我需要将该函数乘以（未知）因子，因为实函数下的面积约为1e8，但肯定不是一个。我通过使用diskrete原始数据的trapz积分计算此“比例因子”来进行变通。

在已经知道mu和sigma的情况下，必须有一种更好的方法来绘制拟合函数。

缩放对数正态拟合

0 个答案: