_mm_shuffle_epi8内在的用法

时间:2012-10-08 09:13:49

标签: performance optimization x86 sse simd

有人可以解释一下_mm_shuffle_epi8 SSSE3内在问题吗? 我知道它在__m128i中洗了16个8位整数但不知道如何使用它。

我基本上想要使用_mm_shuffle_epi8修改下面的功能以获得更好的性能。

while(not done)
    dest[i+0] = (src+j).a;
    dest[i+1] = (src+j).b;
    dest[i+2] = (src+j).c;
    dest[i+3] = (src+j+1).a;
    dest[i+4] = (src+j+1).b;
    dest[i+5] = (src+j+1).c;
    i+=6;
    j+=2;

2 个答案:

答案 0 :(得分:6)

这是使用内在的一个例子;你必须找到如何将它应用于你的特定情况。这段代码一次性交换4个32位整数:

unsigned int *bswap(unsigned int *destination, unsigned int *source, int length) {
    int i;
    __m128i mask = _mm_set_epi8(12, 13, 14, 15, 8, 9, 10, 11, 4, 5, 6, 7, 0, 1, 2, 3);
    for (i = 0; i < length; i += 4) {
        _mm_storeu_si128((__m128i *)&destination[i],
        _mm_shuffle_epi8(_mm_loadu_si128((__m128i *)&source[i]), mask));
    }
    return destination;
}

答案 1 :(得分:5)

_mm_shuffle_epi8(更好地称为pshufb),基本上是这样做的:

temp = dst;
for (int i = 0; i < 16; i++)
    dst[i] = (src[i] & 0x80) == 0 ? temp[src[i] & 15] : 0;

至于你是否可以在这里使用它,如果不知道所涉及的类型,就不可能分辨出来。它无论如何都不会“好”,因为目标是一个6字节的块(或单词?或dwords?)。你可以通过展开和进行大量的转移和整理来实现这一目标。

相关问题