检查所有__m128i组件是否为0的最有效方法[使用< = SSE4.1 intrinsics]

时间:2015-01-12 15:44:34

标签: c++ integer sse simd intrinsics

我正在使用SSE内在函数来确定矩形(由四个int32值定义)是否已更改:

__m128i oldRect; // contains old left, top, right, bottom packed to 128 bits
__m128i newRect; // contains new left, top, right, bottom packed to 128 bits

__m128i xor = _mm_xor_si128(oldRect, newRect);

此时,如果矩形未更改,则生成的xor值将全为零。那么最有效的方法是什么呢?

目前我正在这样做:

if (xor.m128i_u64[0] | xor.m128i_u64[1])
{
    // rectangle changed
}

但我认为这是一种更聪明的方式(可能使用了我尚未找到的SSE指令)。

我在x64上定位SSE4.1,我在Visual Studio 2013中编写C ++。

编辑:问题与Is an __m128i variable zero?不完全相同,因为它指定了SSE-2及更早版本的处理器" (虽然安东尼奥确实添加了一个答案"完整性"这个问题在发布和回答后的某个时间解决了4.1。

2 个答案:

答案 0 :(得分:12)

您可以通过_mm_testz_si128内在函数(SSE4.1)使用TEST指令,如下所示:

#include "smmintrin.h" // SSE4.1 header

if (!_mm_testz_si128(xor, xor))
{
    // rectangle has changed
}

请注意,如果两个参数的按位_mm_testz_si128为零,AND将返回1。

答案 1 :(得分:6)

具有讽刺意味的是,在某些情况下,来自SSE 4.1的ptest指令可能比来自SSE2的pmovmskb慢。我建议简单地使用:

__m128i cmp = _mm_cmpeq_epi32(oldRect, newRect);
if (_mm_movemask_epi8(cmp) != 0xFFFF)
  //registers are different

请注意,如果您确实需要xor值,则必须单独计算。

对于像Ivy Bridge这样的英特尔处理器,PaulR的版本xor_mm_testz_si128转换为4 uop,而没有计算xor的建议版本转换为3 uop(另请参阅{{ 3}})。这可能会提高我的版本的吞吐量。