我想用C ++ Tensorflow稀疏矩阵密集向量(SPMv)乘法编写:y = Ax
稀疏矩阵A以CSR格式存储。 A的通常稀疏度在50-90%之间。目标是达到比密集矩阵密集向量(DMv)乘积更好的时间或类似的时间。
请注意,我已经查看了以下帖子:Q1 Q2 Q3。但是,我仍然想知道以下几点:
这个问题与我在这里的其他问题有关:(CSCC: Convolution Split Compression Calculation Algorithm for Deep Neural Network)
答案 0 :(得分:2)
要回答已编辑的问题:
除了矩阵格式本身之外,即使矩阵中的条目顺序也会对性能产生重大影响,这就是为什么通常使用Cuthill-McKee算法来减少矩阵带宽(从而提高缓存性能)的原因。