Question

Answer 1

您在这里看到的是在两个物理内核的L1缓存之间移动数据的成本。当仅使用一个核时，数据位于该L1高速缓存中，并且每个CAS以高速运行并且高速缓存中的数据。另一方面，当两个核心处于活动状态时，每次核心成功写入数据时，它将使另一个缓存无效，这将导致需要在缓存之间复制数据，然后另一个核心可以执行任何操作（通常，它会在CAS完成之前阻止等待负载）。这比实际的CAS要昂贵得多（它需要至少将数据移动到L3 cahce然后再返回到另一个L1缓存），并导致你看到的速度减慢，因为数据最终会打乒乓在两个L1缓存之间来回传递

Answer 2

通过CAS，我假设你在谈论LOCK CMPXCHG

第二个线程开始CAS。首先 core将其缓存行发送到第二个核心和两个核心都有缓存行标记为共享。

您似乎认为操作开始，中断，继续。 CAS对于内存子系统是原子的。所以它一次读取值，比较和写入。没有时间段，一旦获得它，它将丢失到另一个核心的高速缓存行。这是如何运作的？它在指令执行期间引发处理器锁定信号，以便其他指令在存储器子系统上停止，直到高速缓存行再次可用。这就是CMPXCHG指令上有LOCK前缀的原因。您可以阅读LOCK说明以获取更多详细信息。

因此，大多数争用发生在L1上，试图获得高速缓存行的独占所有权，而该信号大多数时间都在提升。如果L1已经具有高速缓存行（例如在同一核心上有2个线程的情况下），则唯一的争用是CAS本身的持续时间，不包括跨核心的高速缓存行内存传输（因为它已经存在）。而且速度要快得多。

Answer 3

所以，我一直在考虑这一切。

目前，我有两个单独的提案，用于处理CAS - “缓存锁定”和MESI。

这篇文章完全是关于缓存锁定的。

缓存锁定假定核心锁定了给定的缓存行，并且在该缓存行上尝试CAS的其他核心停止缓存仍然被释放。

此外，我还相信CAS总是在完成之前将其结果写回内存。

采用这一理论，让我们看看基准并试着解释结果。

Release 7 Lock-Free Freelist Benchmark #1

   M
   N
   S
  L3U
L2U L2U
L1D L1D
L1I L1I
 P   P
L L L L total ops,mean ops/sec per thread,standard deviation,scalability
0 0 0 1 310134488,31013449,0,1.00
0 1 0 1 136313300,6815665,38365,0.22

0 1 0 1 136401284,6820064,50706,0.22
1 1 1 1 111134328,2778358,23851,0.09

0 0 1 1 334747444,16737372,2421,0.54
1 1 1 1 111105898,2777647,40399,0.09

所以，首先是单线程案例;

L L L L total ops,mean ops/sec per thread,standard deviation,scalability
0 0 0 1 310134488,31013449,0,1.00

这里我们有最大的表现。单个线程使用每个“槽”。

现在我们来到同一个核心的两个线程;

L L L L total ops,mean ops/sec per thread,standard deviation,scalability
0 0 1 1 334747444,16737372,2421,0.54

在这里，我们当然仍然拥有相同数量的“插槽” - CAS需要的时间与它一样长 - 但我们看到它们在逻辑处理器之间均匀分布。这是有道理的;一个核心锁定高速缓存行，其他档位，第一个完成，第二个获取锁定......它们交替。目标保留在L1缓存中，缓存行处于修改状态;我们永远不需要从内存中重新读取目标，所以在这个意义上我们就像一个线程案例。

现在我们来到不同内核的两个线程;

L L L L total ops,mean ops/sec per thread,standard deviation,scalability
0 1 0 1 136401284,6820064,50706,0.22

在这里，我们看到我们的第一次大减速。我们的最大理论比例是0.5，但我们是0.22。怎么会？好吧，每个线程都试图锁定相同的缓存行（当然是在它自己的缓存中），这很好 - 但问题是当核心获得锁定时，它需要从内存中重新读取目标，因为它的缓存如果另一个核心修改了其数据副本，则该行将被标记为无效。因此，我们将速度放慢到我们必须做的内存读取。

现在我们来了四个线程，每个核心两个。

L L L L total ops,mean ops/sec per thread,standard deviation,scalability
1 1 1 1 111105898,2777647,40399,0.09

这里我们看到ops的总数实际上只比每个核心的一个线程略少，虽然当然缩放比较差，因为我们现在有四个线程，而不是两个。

在每个核心场景的一个线程中，每个CAS都以读取内存开始，因为另一个核心使CASing核心缓存线无效。

在这种情况下，当核心完成CAS并释放缓存锁定时，三个线程正在争夺锁定，两个核心在另一个核心上竞争，一个在同一核心上。所以三分之二的时间我们需要在CAS开始时重新读取内存;三分之一的时间我们没有。

所以我们应该更快。但我们实际上是SLOWER。

0% memory re-reading gives 33,474,744.4 total ops per second (two threads, same core)
66% memory re-reading, gives 11,110,589.8 total ops per second (four threads, two per core)
100% memory re-reading, gives 13,640,128.4 total ops per second (two threads, one per core)

这让我很困惑。观察到的事实不符合理论。

CAS碰撞的CPU内部特征是什么？

3 个答案: