Question

在现代处理器上，浮点除法比浮点乘法（通过倒数吞吐量测量）慢一个数量级。

我想知道在给定某些假设和容差水平的情况下是否存在用于计算x/y的快速近似的算法。例如，如果您假设0<x<y并且愿意接受任何超出真值10％的输出，那么算法是否比内置FDIV操作更快？

Answer 1

我希望这会有所帮助，因为这可能与你想要的东西一样接近。

__inline__ double __attribute__((const)) divide( double y, double x ) {
                                    // calculates y/x
    union {
        double dbl;
        unsigned long long ull;
    } u;
    u.dbl = x;                      // x = x
    u.ull = ( 0xbfcdd6a18f6a6f52ULL - u.ull ) >> (unsigned char)1;
                                    // pow( x, -0.5 )
    u.dbl *= u.dbl;                 // pow( pow(x,-0.5), 2 ) = pow( x, -1 ) = 1.0/x
    return u.dbl * y;               // (1.0/x) * y = y/x
}

另见：
Another post about reciprocal approximation.
The Wikipedia page.

Answer 2

FDIV通常异常比FMUL慢，只是b / c它不能像乘法那样用管道传输，并且需要多个clk周期来进行迭代收敛HW寻找过程。

最简单的方法就是简单地认识到除法只不过是除数y和除数x的倒数的乘法。不太直接的部分是记住浮动值x = m * 2 ^ e＆amp;它的倒数x^-1 = (1/m)*2^(-e) = (2/m)*2^(-e-1) = p * 2^q近似于这个新的尾数p = 2/m = 3-x, for 1<=m<2。这给出了逆函数的粗略分段线性逼近，但是我们可以通过使用迭代牛顿根查找方法来改进该近似来做得更好。

允许w = f(x) = 1/x，通过在f(x)或x方面求解w，找到此函数x = f^(-1)(w) = 1/w的反函数。要使用根查找方法改进输出，我们必须首先创建一个零反映所需输出的函数，即g(w) = 1/w - x, d/dw(g(w)) = -1/w^2。

w[n+1]= w[n] - g(w[n])/g'(w[n]) = w[n] + w[n]^2 * (1/w[n] - x) = w[n] * (2 - x*w[n])

w[n+1] = w[n] * (2 - x*w[n]), when w[n]=1/x, w[n+1]=1/x*(2-x*1/x)=1/x

然后添加这些组件以获取最后一段代码：

float inv_fast(float x) {
    union { float f; int i; } v;
    float w, sx;
    int m;

    sx = (x < 0) ? -1:1;
    x = sx * x;

    v.i = (int)(0x7EF127EA - *(uint32_t *)&x);
    w = x * v.f;

    // Efficient Iterative Approximation Improvement in horner polynomial form.
    v.f = v.f * (2 - w);     // Single iteration, Err = -3.36e-3 * 2^(-flr(log2(x)))
    // v.f = v.f * ( 4 + w * (-6 + w * (4 - w)));  // Second iteration, Err = -1.13e-5 * 2^(-flr(log2(x)))
    // v.f = v.f * (8 + w * (-28 + w * (56 + w * (-70 + w *(56 + w * (-28 + w * (8 - w)))))));  // Third Iteration, Err = +-6.8e-8 *  2^(-flr(log2(x)))

    return v.f * sx;
}

快速近似浮点除法

2 个答案: