Question

我在Release和Debug版本的程序结果中发现了一些差异。经过一些研究后，我意识到一些浮点优化会导致这些差异。我已经通过使用fenv_access pragma来禁用某些关键方法的某些优化来解决了这个问题。

考虑到这一点，我意识到使用fp：strict模型代替fp可能更好：因为它的特性而在我的程序中是精确的，但我担心性能。我试图找到关于fp：strict的性能问题的一些信息，或者精确和严格的模型之间的性能差异，但我发现的信息非常少。

有谁知道这件事？

提前致谢。

Answer 1

这是因为您在32位模式下编译，它使用x86浮点处理器。代码优化器消除了从FPU寄存器到存储器和返回的冗余移动，将中间结果留在FPU堆栈中。一个非常重要的优化。

问题是，FPU以80位精度存储双精度数。而不是双精度的64位精度。英特尔最初假设这是一个功能，产生更准确的中间计算，但它确实是一个错误。当他们设计SSE2指令集时，他们没有犯同样的错误，64位编译器用它来做浮点数学运算。 XMM寄存器是64位。

因此，在发布模式构建中，您会得到微妙的不同结果，因为计算是使用更多位执行的。这应该永远在使用浮点值来计算的程序中是一个问题，double只能存储15位有效数字。有什么不同的是噪音数字，超过前15位的数字。但有时候，如果你的计算失去了重要的数字，那就少了。比如计算1 - 3 *（1 / 3.0）。

但是，你可以使用fp：precise来获得一致的噪音数字。它强制将中间值刷新到内存中，这样它们就不能以80位精度保留在FPU中。它当然会使你的代码变慢。

Answer 2

我不确定这是否是一个解决方案但是我有:) 正如我之前发布的那样，我已经编写了一个测试程序来执行浮点运算，据说在fp下进行了优化：精确而不是在fp：strict下，然后测量性能。我运行了10000次，平均而言，fp：strict比fp：precision慢2.85％。

Answer 3

只提供我的两分钱：

我有一个自动向量化的图像处理程序，目的是比较matlab作为黄金标准的性能和准确性。

使用VS2012和Intel i950。

关键区域错误＆amp;运行

2.3328196e-02 465 ms with strict 
7.1277611e-02 182 ms with precise
7.1277611e-02 188 ms with fast

严格没有进行反击

使用严格将代码减慢2倍。这是不可接受的。

Answer 4

看看Debug和Release版本之间的性能差异是绝对正常的。

编译器和运行时将在调试版中进行更多额外的健全性检查;不要相互比较，特别是在性能方面;使用不同的编译器开关比较发布与发布。

另一方面，如果两个版本之间的结果不同，那么你必须进入并检查编程错误（最有可能）。

最大