英特尔和GNU C编译器与矢量化相矛盾

时间:2013-04-30 08:57:30

标签: c gcc vectorization compiler-optimization icc

在课堂上,我们得到了一个简单的循环,我们应该进行矢量化。这很顺利,但我们遇到了一件奇怪的事情。请考虑以下代码:

#include<stdio.h>

void func(int N, double *a, double *b, double *c, double *d) {
  int i;
  #pragma ivdep
  for ( i=0; i<N; i++ ) {
    d[i] = c[i+1];
  }
  #pragma ivdep
  for ( i=0; i<N; i++ ) {
    a[i] = b[i];
    c[i] = a[i] + b[i];
  }
}

这是ICC的输出(命令icc -O2 -vec-report3 -c example.c,版本13.0.1):

example.c(6): (col. 3) remark: LOOP WAS VECTORIZED.
example.c(6): (col. 3) remark: loop was not vectorized: not inner loop.
example.c(10): (col. 3) remark: LOOP WAS VECTORIZED.

我在汇编程序中不够流利,无法读取-S转储,所以我不知道它实际上做了什么;但由于没有理由我可以理解来矢量化第一个循环,我认为它确实存在。

这些矛盾信息的原因是什么?

在开放的方面,GCC 4.5.4(命令gcc -O3 -ftree-vectorizer-verbose=1 -c example.c)矢量化两个循环。另一方面,GCC 4.6.4打印出这个:

example.c:10: note: created 3 versioning for alias checks.
example.c:10: note: LOOP VECTORIZED.
example.c:3: note: vectorized 1 loops in function.

GCC 4.8.0更加冗长:

Analyzing loop at example.c:10
Vectorizing loop at example.c:10
example.c:10: note: create runtime check for data references *_24 and *_21
example.c:10: note: create runtime check for data references *_24 and *_27
example.c:10: note: create runtime check for data references *_21 and *_27
example.c:10: note: created 3 versioning for alias checks.
example.c:10: note: === vect_do_peeling_for_loop_bound ===Setting upper bound of nb iterations for epilogue loop to 0
example.c:10: note: LOOP VECTORIZED.
Analyzing loop at example.c:6
example.c:3: note: vectorized 1 loops in function.
example.c:10: note: Turned loop into non-loop; it never loops.

两者都没有说出关于第一个循环的任何注意事项,但4.8.0似乎与第二个循环相矛盾。

这里发生了什么?

2 个答案:

答案 0 :(得分:0)

认为发生的事情是第一个循环很简单,编译器已经有了一个矢量化版本,所以它不是生成矢量化代码,而是替换为已经优化的调用版本(希望已经包含别名检查)。

关于第二个循环,因为它们可能是指针之间的别名(你可以判断是否没有带限制指针的别名:http://en.wikipedia.org/wiki/Restrict)它需要做一些运行时检查以确保没有别名。根据别名,可以应用第二个循环的不同矢量化版本。

答案 1 :(得分:0)

如果你删除#pragma ivdep并引入如下所示的限制指针,你会看到icc和gcc的相同行为:

#include<stdio.h>

void func(int N, double *__restrict__ a, double *__restrict__ b, double *__restrict__ c, double *__restrict__ d) {
  int i;
  for ( i=0; i<N; i++ ) {
    d[i] = c[i+1];
  }
  for ( i=0; i<N; i++ ) {
    a[i] = b[i];
    c[i] = a[i] + b[i];
  }
}

icc的矢量化报告是:

$ icc -c test.cc -vec-report2
test.cc(5): (col. 3) remark: LOOP WAS VECTORIZED
test.cc(5): (col. 3) remark: loop was not vectorized: not inner loop
test.cc(8): (col. 3) remark: LOOP WAS VECTORIZED

gcc的矢量化报告是:

$ gcc -c -O3 -ftree-vectorizer-verbose = 1 test.cc

test.cc:8: note: LOOP VECTORIZED.
test.cc:5: note: LOOP VECTORIZED.
test.cc:3: note: vectorized 2 loops in function.

这里使用的gcc版本是4.4.4。通过指定restrict关键字,icc和gcc都会忽略内存别名检查。

相关问题