_mm_load_ps是128位对齐结构的要求吗?

时间:2015-02-02 05:42:54

标签: c++ sse4

我有一个与此类似的矢量结构设置:它与128位对齐,就像__m128类型一样。

struct Vector3
{
    union
    {
        float v[4];
        struct { float x,y,z,w; }
    }
}

我正在使用SSE 4.1 Dot产品说明_mm_dp_ps。 是否要求使用_mm_load_ps作为上面的结构已经对齐了128位,或者我可以直接投射我的结构吗?这是安全的做法吗?

注意:使用VS2013并包含。

使用_mm_load_ps的当前代码:

float Vector3::Dot(const Vector3 & v) const
{
    __m128 a = _mm_load_ps(&this->v[0]);
    __m128 b = _mm_load_ps(&v.v[0]);

    __m128 res = _mm_dp_ps(a, b, 0x71);
    return res.m128_f32[0];
}

问题代码:

float Vector3::Dot(const Vector3 & v) const
{
    __m128 res = _mm_dp_ps(*(__m128*)&this->v[0], *(__m128*)&v.v[0], 0x71);
    return res.m128_f32[0];
}

编辑:完成一些测试

使用这个简单的控制台应用程序代码我运行了3个不同的测试第一个使用_mm_load_ps,第二个将结构强制转换为__m128类型,最后在联合内部使用__m128类型。

union Vector4
{
    Vector4(float x, float y, float z, float w) { a = x; b = y; c = z; d = w; }
    struct {float a, b, c, d;};
    __m128 m;
};

int _tmain(int argc, _TCHAR* argv[])
{
    const Vector4 vector_a = Vector4(1.0f, 2.0f, 3.0f, 4.0f);
    const Vector4 vector_b = Vector4(10.0f, 20.0f, 30.0f, 40.0f);

    unsigned long long start;

    // : Test Using _mm_load_ps :
    start = GetTickCount64();
    for (unsigned long long i = 0; i < 10000000000U; i++)
    {
        __m128 mx = _mm_load_ps((float*)&vector_a);
        __m128 my = _mm_load_ps((float*)&vector_b);

        __m128 res_a = _mm_add_ps(mx, my);
    }
    unsigned long long end_a = GetTickCount64() - start;

    // : Test Using Direct Cast to __m128 type :
    start = GetTickCount64();
    for (unsigned long long i = 0; i < 10000000000U; i++)
    {
        __m128 res_b = _mm_add_ps(*(__m128*)&vector_a, *(__m128*)&vector_b);
    }
    unsigned long long end_b = GetTickCount64() - start;

    // : Test Using __m128 type in Union :
    start = GetTickCount64();
    for (unsigned long long i = 0; i < 10000000000U; i++)
    {
        __m128 res_c = _mm_add_ps(vector_a.m, vector_b.m);
    }
    unsigned long long end_c = GetTickCount64() - start;

    return 0;
}

结果如下: end_a:26489滴答 end_b:19375滴答 end_c:18767 ticks

我也完成了代码,所有结果res_a到res_c都是正确的。所以这个测试表明使用union更快。

我知道__m128类型默认是对所用寄存器的引用而不是类型,但是当包含smmintrin.h时,__ m128成为一个在xmmintrin.h中定义为

的联合。
typedef union __declspec(intrin_type) _CRT_ALIGN(16) __m128 {
     float               m128_f32[4];
     unsigned __int64    m128_u64[2];
     __int8              m128_i8[16];
     __int16             m128_i16[8];
     __int32             m128_i32[4];
     __int64             m128_i64[2];
     unsigned __int8     m128_u8[16];
     unsigned __int16    m128_u16[8];
     unsigned __int32    m128_u32[4];
} __m128;

因此我相信使用内在包含执行的指令不是引用寄存器,而是引用xmmintrin.h中定义的__m128类型。

因此,为了更好地在此测试后迭代我的问题:在结构中使用xmmintrin.h中定义的__m128结构与Visual Studio 2013可用的内部函数一起使用是否安全?

0 个答案:

没有答案