cuda - 费米L2缓存命中延迟？

费米L2缓存命中延迟？

时间：2011-07-19 08:11:42

标签： cuda opencl gpu gpgpu

有人知道有关费米二级缓存的相关信息吗？我听说它和全局内存一样慢，L2的使用只是为了扩大内存带宽。但我找不到任何官方消息来证实这一点。有没有人测量L2的命中延迟？尺寸，线条尺寸和其他参数怎么样？

实际上，L2读取失误如何影响性能？在我看来，L2只在内存受限的应用程序中有意义。请随时发表您的意见。

由于

2 个答案:

答案 0 :(得分：3)

这thread in the nvidia有一些性能特征测量值。虽然它不是官方信息，并且可能不是100％准确，但它至少给出了行为的一些指示，所以我认为它可能在这里有用（在时钟周期中测量）：

1020非缓存（已启用L1但未使用）

1020非缓存（L1禁用）

365 L2缓存（禁用L1）

88 L1缓存（启用并启用L1）

同一个帖子中的另一篇文章给出了这些结果：

1060非缓存

248 L2

18 L1

答案 1 :(得分：0)

它不仅像全球记忆一样慢。我没有明确说明这一点，但是在CUDA编程指南中，它说“在高速缓存命中的情况下，或者在设备内存的吞吐量下，在L1或L2高速缓存的吞吐量下服务高速缓存行请求，否则。 “所以他们应该有所不同，这有什么意义，为什么NVIDIA会以相同的全局内存速度放置缓存？由于缓存未命中，平均会更糟。

关于我不知道的延迟。 L2缓存的大小为768KB，行大小为128字节。 CUDA编程指南的F4部分有更多信息，特别是F4.1和F4.2部分。该指南可在此处http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf

获取