高效的SSE NxN矩阵乘法

时间:2014-02-01 21:27:07

标签: c++ assembly sse matrix-multiplication simd

我正在尝试通过矩阵乘法实现SSE版本的大矩阵。  我正在寻找一种基于SIMD实现的高效算法。

我想要的方法如下:

A(n x m) * B(m x k) = C(n x k)

所有矩阵都被认为是16字节对齐的浮点数组。

我搜索了网,发现了一些描述8x8乘法甚至更小的文章。我真的需要它尽可能高效,我不想使用Eigen库或类似的库。 (只有SSE3更具体)。

所以如果有人能帮我找到一些关于如何开始实施这个的文章或资源,我会很感激。

1 个答案:

答案 0 :(得分:9)

实现任意大小的矩阵 - 矩阵乘法的主要挑战不是使用SIMD,而是重用缓存数据。如果你想实现缓存友好的矩阵 - 矩阵乘法,那么论文Anatomy of High-Performance Matrix Multiplication by Goto and Van de Geijn是必读的,它还讨论了对SIMD友好的内核的选择。在阅读本文之后,经过两周的努力,预计在矩阵 - 矩阵乘法上达到机器峰值的50%。

但是,如果这项工作的目的不是纯粹的学习,我强烈建议使用高度优化的库。在x86上,您最好的选择是OpenBLAS(BSD许可,支持动态CPU调度),BLIS(BSD许可,轻松移植到新处理器)和Intel MKL(商业,支持动态)英特尔处理器上的CPU调度)。出于性能原因,最好避免使用ATLAS,除非您针对的是其他库不支持的非常奇特的架构。