编辑：

此处的另一个效果是TLB利用率：

在一个4k页的系统上，随着你的步伐增加而它们仍然<4k，你将享受越来越少的每页使用率（最终在4k步幅上达到每页一次访问），这意味着增加访问权限因为你必须在每次访问时访问第二级TLB（甚至可能至少部分地序列化你的访问）。
由于您按步幅大小规范化迭代计数，因此您最内层循环中的(size / stride)访问权限通常会* stride，但{{1}}会在外部进行访问。但是，您访问的唯一页面数量不同 - 对于2M阵列，2k步幅，您将在内部循环中进行1024次访问，但只有512个唯一页面，因此对TLB L2进行512 * 2k访问。在4k步幅上，仍然会有512个唯一页面，但512 * 4k TLB L2访问对于1M阵列的情况，你将总共拥有256个唯一页面，因此2k步幅将具有256 * 2k TLB L2访问，并且4k将再次具有两次。

这解释了为什么当你接近4k时每条线上的逐渐下降，以及为什么每次加倍的阵列大小都会使同一步幅的时间加倍。较低的数组大小仍可能部分享受L1 TLB，因此您看不到相同的效果（虽然我不确定为什么会有512k）。

现在，一旦你开始将步幅提高到4k以上，你就会突然开始受益，因为你实际上正在跳过整个页面。 8K步幅只能访问每个其他页面，对于相同的数组大小，整个TLB访问的一半占4k，依此类推。

内存基准测试图：了解缓存行为

1 个答案:

编辑：