Question

我有两个点（x1和x2），并希望在给定的步数下生成正态分布。 x1和x2之间的x值的y值之和为1。对于实际问题：

我对Python还是很陌生，想知道为什么下面的代码能产生所需的结果，但是比PHP中的同一程序慢大约100倍。大约有2000对x1-x2对，每对约有5个阶跃值。

我尝试使用Cython进行编译，使用了多处理功能，但是它只是将性能提高了2倍，但仍然比PHP慢50倍。有什么建议如何提高速度以至少与PHP性能匹配？

from scipy.stats import norm
import numpy as np
import time

# Calculates normal distribution
def calculate_dist(x1, x2, steps, slope):
    points = []
    range = np.linspace(x1, x2, steps+2)

    for x in range:
        y = norm.pdf(x, x1+((x2-x1)/2), slope)
        points.append([x, y])

    sum = np.array(points).sum(axis=0)[1]

    norm_points = []
    for point in points:
        norm_points.append([point[0], point[1]/sum])

    return norm_points

start = time.time()
for i in range(0, 2000):
    for j in range(10, 15):
        calculate_dist(0, 1, j, 0.15)

print(time.time() - start) # Around 15 seconds or so

编辑，PHP代码：

$start = microtime(true);

for ($i = 0; $i<2000; $i++) {
    for ($j = 10; $j<15; $j++) {
        $x1 = 0; $x2 = 1; $steps = $j; $slope = 0.15;
        $step = abs($x2-$x1) / ($steps + 1);

        $points = [];
        for ($x = $x1; $x <= $x2 + 0.000001; $x += $step) {
            $y = stats_dens_normal($x, $x1 + (($x2 - $x1) / 2), $slope);
            $points[] = [$x, $y];
        }

        $sum = 0;
        foreach ($points as $point) {
            $sum += $point[1];
        }

        $norm_points = [];
        foreach ($points as &$point) {
            array_push($norm_points, [$point[0], $point[1] / $sum]);
        }
    }
}

return microtime(true) - $start; # Around 0.1 seconds or so

编辑2，分析了每一行，发现norm.pdf（）占用了98％的时间，因此找到了一个自定义的normpdf函数并对其进行了定义，现在时间约为0.67s，这虽然快得多，但仍然慢了约10倍比PHP。我也认为重新定义通用函数违背了Python简单性的想法？！

自定义函数（来源是其他Stackoverflow答案）：

from math import sqrt, pi, exp
def normpdf(x, mu, sigma):
    u = (x-mu)/abs(sigma)
    y = (1/(sqrt(2*pi)*abs(sigma)))*exp(-u*u/2)
    return y

Answer 1

答案是，您没有为python中的任务使用正确的工具/数据结构。

在python中调用numpy功能会产生很大的开销（scipy.stats.norm.pdf在后台使用numpy），因此永远不会为一个元素而是为整个数组调用此函数（所谓的矢量化计算），这意味着的

for x in range:
        y = norm.pdf(x, x1+((x2-x1)/2), slope)
        ys.append(y)

一个人宁愿使用：

ys = norm.pdf(x,x1+((x2-x1)/2), slope)

为x中的所有元素计算pdf，并且仅支付一次开销，而不是len(x)次。

例如，计算10 ^ 4个元素的pdf所需的时间少于一个元素的10倍：

%timeit norm.pdf(0)   # 68.4 µs ± 1.62 µs
%timeit norm.pdf(np.zeros(10**4))   # 415 µs ± 12.4 µs

使用矢量化计算不仅可以使您的程序更快，而且通常也更短/更易于理解，例如：

def calculate_dist_vec(x1, x2, steps, slope):
    x = np.linspace(x1, x2, steps+2)
    y = norm.pdf(x, x1+((x2-x1)/2), slope)
    ys = y/np.sum(y)
    return x,ys

使用此矢量化版本可使您的速度提高10倍左右。

问题：norm.pdf已针对长向量进行了优化（如果一百万个元素的速度非常快，没人会真正在乎10个元素的速度/速度），但是您的测试偏向于numpy，因为它仅使用/创建短数组，因此norm.pdf无法发光。

因此，如果它确实是关于小型数组的，并且您真的想加快速度，则必须推出自己的norm.pdf版本。使用cython创建此快速且专用的功能可能值得尝试。 / p>

为什么我的Python代码比PHP中的相同代码慢100倍？

1 个答案: