Question

以下是代码：

#include <iostream>
#include <time.h>

using namespace std;

#define ARR_LENGTH 1000000
#define TEST_NUM 0
typedef unsigned int uint;

uint arr[ARR_LENGTH];

uint inc_time(uint x) {
    uint y = 0, tm = clock();
    for (uint i = 0; i < x; i++) y++;
        return clock() - tm;
}

int main() {
    uint div = 0, mod = 0, tm = 0, overall = 0, inc_tm;
    srand(time(NULL));
    for (uint i = 0; i < ARR_LENGTH; i++) arr[i] = (uint)rand() + 2;

    tm = clock();
    for (uint i = 0; i < ARR_LENGTH - 1; i++)
        if (arr[i] % arr[i+1] != TEST_NUM) mod++;
    overall = clock() - tm;
    inc_tm = inc_time(mod);
    cout << "mods - " << mod << endl;
    cout << "Overall time - " << overall<< endl;
    cout << "   wasted on increment - " << inc_tm << endl;
    cout << "   wasted on condition - " << overall - inc_tm << endl << endl;

    tm = clock();
    for (uint i = 0; i < ARR_LENGTH - 1; i++)
        if (arr[i]/arr[i+1] != TEST_NUM) div++;
    overall = clock()-tm;
    inc_tm = inc_time(div);
    cout << "divs - " << div << endl;
    cout << "Overall time - " << overall << endl;
    cout << "   wasted on increment - " << inc_tm << endl;
    cout << "   wasted on condition - " << overall - inc_tm << endl << endl;

    return 0;
}

如果你正在使用Visual Studio，只需在DEBUG（而不是RELEASE）模式下编译，如果你使用GCC而不是禁用死代码消除（-fno-dce），否则代码的某些部分将无法工作。 / p>

所以问题是：当你将TEST_NUM常量设置为非零（比如说5）时，两个条件（模数和除法）大约同时进行，但是当你将TEST_NUM设置为0时，第二个条件执行较慢（最多3次！）。为什么呢？

以下是反汇编列表：disassembly listing image http://img213.imageshack.us/slideshow/webplayer.php?id=wp000076.jpg

如果为0，则使用test指令代替cmp X, 0，但即使您将cmp X, 5（如果是5）修改为cmp X, 0，您也会看到它不会影响模运算，但会影响除法运算。

在您更改TEST_NUM常量时，请仔细观察操作计数和时间的变化。

如果有人可以，请说明这怎么可能发生？感谢。

Answer 1

在TEST_NUM == 0的情况下，第一个条件很少是真的。分支预测将识别这一点并预测条件始终为假。在大多数情况下，这种预测是正确的，因此很难执行昂贵的错误预测分支。

“TEST_NUM == 5”的情况几乎相同：第一个条件很少是真的。

对于第二个条件abd TEST_NUM == 0，每个arr[i] < arr[i+1]的除法结果为零，其概率约为0.5。这是分支预测器的最坏情况 - 在每个第二种情况下，分支将被预测为错误。平均而言，您将获得错误预测分支所需的一半时钟周期（取决于可能在10到20个周期之间的架构）。

如果您的值为TEST_NUM == 5，则第二个条件现在很少为真，概率大约为0.1（此处不太确定）。这更好“可预测”。通常，预测器将预测为（几乎）总是假的，其间有一些随机的真实，但这取决于处理器的内部。但无论如何，你不会经常得到错误的预测分支的额外周期，每五分钟就会出现最差的情况。

x86“cmp”指令的奇怪行为

1 个答案: