用SSE计算平均4d向量

时间:2015-07-10 05:38:03

标签: c sse

我尝试加速计算放置在数组中的4d向量的平均值。这是我的代码:

#include <sys/time.h>
#include <sys/param.h>
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <xmmintrin.h>

typedef float dot[4];
#define N 1000000

double gettime ()
{
    struct timeval tv;
    gettimeofday (&tv, 0);
    return (double)tv.tv_sec + (0.000001 * (double)tv.tv_usec);
}

void calc_avg1 (dot res, const dot array[], int n)
{
    int i,j;
    memset (res, 0, sizeof (dot));
    for (i = 0; i < n; i++)
    {
        for (j = 0; j<4; j++) res[j] += array[i][j];
    }
    for (j = 0; j<4; j++) res[j] /= n;
}

void calc_avg2 (dot res, const dot array[], int n)
{
    int i;
    __v4sf r = _mm_set1_ps (0.0);
    for (i=0; i<n; i++) r += _mm_load_ps (array[i]);
    r /= _mm_set1_ps ((float)n);
    _mm_store_ps (res, r);
}

int main ()
{
    void *space = malloc (N*sizeof(dot)+15);
    dot *array = (dot*)(((unsigned long)space+15) & ~(unsigned long)15);
    dot avg __attribute__((aligned(16)));
    int i;
    double time;

    for (i = 0; i < N; i++)
    {
        array[i][0] = 1.0*random();
        array[i][1] = 1.0*random();
        array[i][2] = 1.0*random();
    }
    time = gettime();
    calc_avg1 (avg, array, N);
    time = gettime() - time;
    printf ("%f\n%f %f %f\n", time, avg[0], avg[1], avg[2]);

    time = gettime();
    calc_avg2 (avg, array, N);
    time = gettime() - time;
    printf ("%f\n%f %f %f\n", time, avg[0], avg[1], avg[2]);
    return 0;
}

因此,您可以看到calc_avg1使用从0到4的幼稚循环,而calc_avg2将其替换为SSE指令。我用clang 3.4编译这段代码:

cc -O2 -o test test.c

这是calc_avgX函数的反汇编:

0000000000400860 <calc_avg1>:
  400860:   55                      push   %rbp
  400861:   48 89 e5                mov    %rsp,%rbp
  400864:   85 d2                   test   %edx,%edx
  400866:   0f 57 c0                xorps  %xmm0,%xmm0
  400869:   0f 11 07                movups %xmm0,(%rdi)
  40086c:   7e 42                   jle    4008b0 <calc_avg1+0x50>
  40086e:   48 83 c6 0c             add    $0xc,%rsi
  400872:   0f 57 c0                xorps  %xmm0,%xmm0
  400875:   89 d0                   mov    %edx,%eax
  400877:   0f 57 c9                xorps  %xmm1,%xmm1
  40087a:   0f 57 d2                xorps  %xmm2,%xmm2
  40087d:   0f 57 db                xorps  %xmm3,%xmm3
  400880:   f3 0f 58 5e f4          addss  -0xc(%rsi),%xmm3
  400885:   f3 0f 11 1f             movss  %xmm3,(%rdi)
  400889:   f3 0f 58 56 f8          addss  -0x8(%rsi),%xmm2
  40088e:   f3 0f 11 57 04          movss  %xmm2,0x4(%rdi)
  400893:   f3 0f 58 4e fc          addss  -0x4(%rsi),%xmm1
  400898:   f3 0f 11 4f 08          movss  %xmm1,0x8(%rdi)
  40089d:   f3 0f 58 06             addss  (%rsi),%xmm0
  4008a1:   f3 0f 11 47 0c          movss  %xmm0,0xc(%rdi)
  4008a6:   48 83 c6 10             add    $0x10,%rsi
  4008aa:   ff c8                   dec    %eax
  4008ac:   75 d2                   jne    400880 <calc_avg1+0x20>
  4008ae:   eb 0c                   jmp    4008bc <calc_avg1+0x5c>
  4008b0:   0f 57 c0                xorps  %xmm0,%xmm0
  4008b3:   0f 57 c9                xorps  %xmm1,%xmm1
  4008b6:   0f 57 d2                xorps  %xmm2,%xmm2
  4008b9:   0f 57 db                xorps  %xmm3,%xmm3
  4008bc:   f3 0f 2a e2             cvtsi2ss %edx,%xmm4
  4008c0:   f3 0f 5e dc             divss  %xmm4,%xmm3
  4008c4:   f3 0f 11 1f             movss  %xmm3,(%rdi)
  4008c8:   f3 0f 5e d4             divss  %xmm4,%xmm2
  4008cc:   f3 0f 11 57 04          movss  %xmm2,0x4(%rdi)
  4008d1:   f3 0f 5e cc             divss  %xmm4,%xmm1
  4008d5:   f3 0f 11 4f 08          movss  %xmm1,0x8(%rdi)
  4008da:   f3 0f 5e c4             divss  %xmm4,%xmm0
  4008de:   f3 0f 11 47 0c          movss  %xmm0,0xc(%rdi)
  4008e3:   5d                      pop    %rbp
  4008e4:   c3                      retq   
  4008e5:   66 66 2e 0f 1f 84 00    nopw   %cs:0x0(%rax,%rax,1)
  4008ec:   00 00 00 00 

00000000004008f0 <calc_avg2>:
  4008f0:   55                      push   %rbp
  4008f1:   48 89 e5                mov    %rsp,%rbp
  4008f4:   85 d2                   test   %edx,%edx
  4008f6:   0f 57 c0                xorps  %xmm0,%xmm0
  4008f9:   7e 10                   jle    40090b <calc_avg2+0x1b>
  4008fb:   89 d0                   mov    %edx,%eax
  4008fd:   0f 1f 00                nopl   (%rax)
  400900:   0f 58 06                addps  (%rsi),%xmm0
  400903:   48 83 c6 10             add    $0x10,%rsi
  400907:   ff c8                   dec    %eax
  400909:   75 f5                   jne    400900 <calc_avg2+0x10>
  40090b:   66 0f 6e ca             movd   %edx,%xmm1
  40090f:   66 0f 70 c9 00          pshufd $0x0,%xmm1,%xmm1
  400914:   0f 5b c9                cvtdq2ps %xmm1,%xmm1
  400917:   0f 5e c1                divps  %xmm1,%xmm0
  40091a:   0f 29 07                movaps %xmm0,(%rdi)
  40091d:   5d                      pop    %rbp
  40091e:   c3                      retq   
  40091f:   90                      nop    

结果如下:

> ./test
0.004287
1073864320.000000 1074018048.000000 1073044224.000000
0.003661
1073864320.000000 1074018048.000000 1073044224.000000

所以SSE版本快了1.17倍。但是当我尝试做一个看似相同的工作时,就是计算一个数组中单个精度标量的平均值(例如这里所描述的SSE reduction of float vector),SSE版本的运行速度提高了3.32倍。以下是calc_avgX函数的代码:

float calc_avg1 (const float array[], int n)
{
    int i;
    float avg = 0;
    for (i = 0; i < n; i++) avg += array[i];
    return avg / n;
}

float calc_avg3 (const float array[], int n)
{
    int i;
    __v4sf r = _mm_set1_ps (0.0);
    for (i=0; i<n; i+=4) r += _mm_load_ps (&(array[i]));
    r = _mm_hadd_ps (r, r);
    r = _mm_hadd_ps (r, r);
    return r[0] / n;
}

所以我的问题是这样的:为什么我在上一个例子(计算单个浮动标量的平均值)中如此受益于SSE并且不在第一个(计算4d向量的平均值)?对我来说,这些工作几乎是一样的。如果我做错了,在第一个例子中加快计算的正确方法是什么?

UPD: 如果您认为它是相关的,我还提供第二个示例的反汇编,其中计算了标量的平均值(也使用clang3.4 -O2编译)。

0000000000400860 <calc_avg1>:
  400860:   55                      push   %rbp
  400861:   48 89 e5                mov    %rsp,%rbp
  400864:   85 d2                   test   %edx,%edx
  400866:   0f 57 c0                xorps  %xmm0,%xmm0
  400869:   0f 11 07                movups %xmm0,(%rdi)
  40086c:   7e 42                   jle    4008b0 <calc_avg1+0x50>
  40086e:   48 83 c6 0c             add    $0xc,%rsi
  400872:   0f 57 c0                xorps  %xmm0,%xmm0
  400875:   89 d0                   mov    %edx,%eax
  400877:   0f 57 c9                xorps  %xmm1,%xmm1
  40087a:   0f 57 d2                xorps  %xmm2,%xmm2
  40087d:   0f 57 db                xorps  %xmm3,%xmm3
  400880:   f3 0f 58 5e f4          addss  -0xc(%rsi),%xmm3
  400885:   f3 0f 11 1f             movss  %xmm3,(%rdi)
  400889:   f3 0f 58 56 f8          addss  -0x8(%rsi),%xmm2
  40088e:   f3 0f 11 57 04          movss  %xmm2,0x4(%rdi)
  400893:   f3 0f 58 4e fc          addss  -0x4(%rsi),%xmm1
  400898:   f3 0f 11 4f 08          movss  %xmm1,0x8(%rdi)
  40089d:   f3 0f 58 06             addss  (%rsi),%xmm0
  4008a1:   f3 0f 11 47 0c          movss  %xmm0,0xc(%rdi)
  4008a6:   48 83 c6 10             add    $0x10,%rsi
  4008aa:   ff c8                   dec    %eax
  4008ac:   75 d2                   jne    400880 <calc_avg1+0x20>
  4008ae:   eb 0c                   jmp    4008bc <calc_avg1+0x5c>
  4008b0:   0f 57 c0                xorps  %xmm0,%xmm0
  4008b3:   0f 57 c9                xorps  %xmm1,%xmm1
  4008b6:   0f 57 d2                xorps  %xmm2,%xmm2
  4008b9:   0f 57 db                xorps  %xmm3,%xmm3
  4008bc:   f3 0f 2a e2             cvtsi2ss %edx,%xmm4
  4008c0:   f3 0f 5e dc             divss  %xmm4,%xmm3
  4008c4:   f3 0f 11 1f             movss  %xmm3,(%rdi)
  4008c8:   f3 0f 5e d4             divss  %xmm4,%xmm2
  4008cc:   f3 0f 11 57 04          movss  %xmm2,0x4(%rdi)
  4008d1:   f3 0f 5e cc             divss  %xmm4,%xmm1
  4008d5:   f3 0f 11 4f 08          movss  %xmm1,0x8(%rdi)
  4008da:   f3 0f 5e c4             divss  %xmm4,%xmm0
  4008de:   f3 0f 11 47 0c          movss  %xmm0,0xc(%rdi)
  4008e3:   5d                      pop    %rbp
  4008e4:   c3                      retq   
  4008e5:   66 66 2e 0f 1f 84 00    nopw   %cs:0x0(%rax,%rax,1)
  4008ec:   00 00 00 00 

00000000004008d0 <calc_avg3>:
  4008d0:   55                      push   %rbp
  4008d1:   48 89 e5                mov    %rsp,%rbp
  4008d4:   31 c0                   xor    %eax,%eax
  4008d6:   85 f6                   test   %esi,%esi
  4008d8:   0f 57 c0                xorps  %xmm0,%xmm0
  4008db:   7e 0f                   jle    4008ec <calc_avg3+0x1c>
  4008dd:   0f 1f 00                nopl   (%rax)
  4008e0:   0f 58 04 87             addps  (%rdi,%rax,4),%xmm0
  4008e4:   48 83 c0 04             add    $0x4,%rax
  4008e8:   39 f0                   cmp    %esi,%eax
  4008ea:   7c f4                   jl     4008e0 <calc_avg3+0x10>
  4008ec:   66 0f 70 c8 01          pshufd $0x1,%xmm0,%xmm1
  4008f1:   f3 0f 58 c8             addss  %xmm0,%xmm1
  4008f5:   66 0f 70 d0 03          pshufd $0x3,%xmm0,%xmm2
  4008fa:   0f 12 c0                movhlps %xmm0,%xmm0
  4008fd:   f3 0f 58 c1             addss  %xmm1,%xmm0
  400901:   f3 0f 58 c2             addss  %xmm2,%xmm0
  400905:   0f 57 c9                xorps  %xmm1,%xmm1
  400908:   f3 0f 2a ce             cvtsi2ss %esi,%xmm1
  40090c:   f3 0f 5e c1             divss  %xmm1,%xmm0
  400910:   5d                      pop    %rbp
  400911:   c3                      retq   
  400912:   66 66 66 66 66 2e 0f    nopw   %cs:0x0(%rax,%rax,1)
  400919:   1f 84 00 00 00 00 00 

1 个答案:

答案 0 :(得分:1)

对不起,这个答案有点漫长而漫无边际。我运行了一些基准测试,但是在考虑了其他事情之后我没有花很长时间编辑早期的东西。

你的工作组是15.25MiB(16MB)。通常要对这样的例程进行基准测试,您需要多次平均一个较小的缓冲区,因此它适合缓存。慢速版和快速版之间没有太大区别,因为差异被内存瓶颈所隐藏。

calc_avg1根本没有自动向量化(注意addssss表示标量,单精度,而不是addps(打包单个) -精确))。我认为它即使在内联到main时也无法自动向量化,因为它无法确定第4个向量位置中是否有NaN s,这会导致标量的FP异常代码不会有。我尝试使用gcc 4.9.2 -O3 -march=native -ffast-math和使用clang-3.5为Sandybridge编译它,但是没有运气。

即便如此,内联到main的版本运行速度稍慢,因为内存是瓶颈。在击中主存储器时,32位负载几乎可以跟上128b负载。 (但非内联版本会很糟糕:每个+=结果都存储到res数组中,因为循环会直接累积到可能有其他引用的内存中。所以它必须使每个操作都可以通过商店看到。这是您发布反汇编的版本,BTW。通过编译-S -fverbose-asm来排序主要部分是哪个。)

有点令人失望的是,clang和gcc无法将__v4sf从4宽到8宽的AVX自动矢量化。

在对for (int i=0; i<4000 ; i++)的调用包裹calc_avgX并将N减少到10k后,gcc -O3将avg1的内部内循环转换为:

  400690:       c5 f8 10 08             vmovups (%rax),%xmm1
  400694:       48 83 c0 20             add    $0x20,%rax
  400698:       c4 e3 75 18 48 f0 01    vinsertf128 $0x1,-0x10(%rax),%ymm1,%ymm1
  40069f:       c5 fc 58 c1             vaddps %ymm1,%ymm0,%ymm0
  4006a3:       48 39 d8                cmp    %rbx,%rax
  4006a6:       75 e8                   jne    400690 <main+0xe0>

$ (get CPU to max-turbo frequency) && time ./a.out
0.016515
1071570752.000000 1066917696.000000 1073897344.000000
0.032875
1071570944.000000 1066916416.000000 1073895680.000000

这很奇怪;我不知道它为什么不使用32B负载。它使用32B vaddps,这是处理适合L2缓存的数据集时的瓶颈。

IDK为什么当它在另一个循环中时,它设法自动向量化内循环。请注意,此适用于内联到main的版本。可调用版本仍然是标量。另请注意,只有gcc管理这个。铿锵3.5没有。也许gcc知道它会以返回归零缓冲区的方式使用malloc(所以它不必担心第4个元素中的NaN)?

我也很惊讶clang的非向量化avg1并不慢,因为一切都适合缓存。 N=10000,重复计数= 40k。

3.3GHz SNB i5 2500k, max turbo = 3.8GHz.
avg1: 0.350422s:  clang -O3 -march=native (not vectorized.  loop of 6 scalar addss with memory operands)
avg2: 0.320173s:  clang -O3 -march=native
avg1: 0.497040s:  clang -O3 -march=native -ffast-math (haven't looked at asm to see what happened)

avg1: 0.160374s:  gcc -O3 -march=native (256b addps, with 2 128b loads)
avg2: 0.321028s:  gcc -O3 -march=native (128b addps with a memory operand)

avg2: ~0.16:  clang, unrolled with 2 dependency chains to hide latency (see below).
avg2: ~0.08:  unrolled with 4 dep chains
avg2: ~0.04:  in theory unrolled-by-4 with 256b AVX.  I didn't try unrolling the one gcc auto-vectorized with 256b addps

令人惊讶的是,仅标量铿锵avg1代码与avg2保持一致。也许循环携带的依赖链是更大的瓶颈?

对于clang的非向量化perf

avg1每个周期显示1.47个insn,这可能会使端口1上的FP添加单元饱和。(大多数循环指令都是添加的)

但是,avg2,使用128b addps和内存操作数,每个周期只获得0.58个insn。将数组大小减少10倍,到N=1000,每个周期得到0.60个insn,这可能是因为在序言/尾声中花费的时间更多。因此,我认为循环携带的依赖链存在严重问题。 clang将循环展开4,但仅使用单个累加器。该循环有7条指令,解码为10微秒。 (每个vaddps为2,因为它与具有2寄存器寻址模式的存储器操作数一起使用,防止微融合。cmpjne宏保险丝。 http://www.brendangregg.com/perf.html表示perf的{​​{1}}事件为UOPS_DISPATCHED.CORE,因此:

r2b1

这证实了我对Uops分析的7:10指示。这实际上与这里的性能问题无关:循环运行方式比每循环上限4个uop慢。更改内部循环以获得两个单独的dep链,使吞吐量增加一倍(60M周期而不是117M,但是81M insns而不是71M):

$ perf stat -d -e cycles,instructions,r2b1 ./a.out
0.031793
1053298112.000000 1052673664.000000 1116960256.000000

 Performance counter stats for './a.out':

       118,453,541      cycles
        71,181,299      instructions              #    0.60  insns per cycle
       102,025,443      r2b1  # this is uops, but perf doesn't have a nice name for it
        40,256,019      L1-dcache-loads
            21,254      L1-dcache-load-misses     #    0.05% of all L1-dcache hits
             9,588      LLC-loads
                 0      LLC-load-misses:HG        #    0.00% of all LL-cache hits

       0.032276233 seconds time elapsed

按4展开(在循环结束时合并4个累加器)再次使性能再次加倍。 (低至42M周期,81M insn,112M uops。)内环有4x for (i=0; i<n-1; i+=2) { // TODO: make sure the loop end condition is correct r0 += _mm_load_ps (array[i]); r1 += _mm_load_ps (array[i+1]); } r0 += r1; (和类似),2x vaddps -0x30(%rcx),%xmm4,%xmm4addcmpjl的这种形式应该微融合,但我仍然看到比指令多得多的uops,所以我猜vaddps计算未融合的域uops。 (Linux r2b1没有针对平台特定的硬件事件的良好文档。再次开始perf,以确保它是完全控制所有计数的最内层循环,我看到uop:insn比率为1.39,与8个insn匹配,11 uops(1.375)(将N计为2,但将vaddps + cmp计为一个)。我找到了http://www.bnikolic.co.uk/blog/hpc-prof-events.html,其中包含支持的perf事件的完整列表,包括他们的Sandybridge代码。 (以及如何为任何其他CPU转储表的说明)。 (在每个块中查找jl行。您需要一个umask字节,然后是代码,作为Code:的arg。)

perf

所以是的,看起来这可以计算融合域和未融合域uops!

按8展开根本没有帮助:仍然是42M周期。 (但由于循环开销较少,因此可达到61M,并且97M uops)。整洁,clang使用# a.out does only avg2, as an unrolled-by-4 version. $ perf stat -d -e cycles,instructions,r14a1,r2b1,r10e,r2c2,r1c2 ./a.out 0.011331 1053298752.000000 1052674496.000000 1116959488.000000 Performance counter stats for './a.out': 42,250,312 cycles [34.11%] 56,103,429 instructions # 1.33 insns per cycle 20,864,416 r14a1 # UOPS_DISPATCHED_PORT: 0x14=port2&3 loads 111,943,380 r2b1 # UOPS_DISPATCHED: (2->umask 00 -> this core, any thread). 72,208,772 r10e # UOPS_ISSUED: fused-domain 71,422,907 r2c2 # UOPS_RETIRED: retirement slots used (fused-domain) 111,597,049 r1c2 # UOPS_RETIRED: ALL (unfused-domain) 0 L1-dcache-loads 18,470 L1-dcache-load-misses # 0.00% of all L1-dcache hits 5,717 LLC-loads [66.05%] 0 LLC-load-misses:HG # 0.00% of all LL-cache hits 0.011920301 seconds time elapsed 而不是添加,因为-128适合sub $-128, %rsi,但+128不适合。所以我猜想按4展开就足以让FP添加端口饱和。

对于返回单个浮点数而不是向量的1avg函数,铿锵声没有自动向量化第一个浮点数,但gcc确实如此。它发出一个巨大的序幕和结尾来做标量和直到它到达一个对齐的地址,然后在一个小循环中做32B AVX imm8。你说你发现它们有更大的速度差异,但你是否可以使用较小的缓冲区进行测试?这将导致矢量代码与非矢量代码的速度加快。