Question

我在C99中编写了一个完整的应用程序，并在两个基于GNU / Linux的系统上进行了彻底的测试。当尝试使用Windows上的Visual Studio编译它导致应用程序行为不端时，我感到很惊讶。起初我无法断言错误，但我尝试使用VC调试器，然后发现fscanf()中声明的stdio.h函数存在差异。

以下代码足以证明问题：

#include <stdio.h>

int main() {
    unsigned num1, num2, num3;

    FILE *file = fopen("file.bin", "rb");
    fscanf(file, "%u", &num1);
    fgetc(file); // consume and discard \0
    fscanf(file, "%u", &num2);
    fgetc(file); // ditto
    fscanf(file, "%u", &num3);
    fgetc(file); // ditto
    fclose(file);

    printf("%d, %d, %d\n", num1, num2, num3);

    return 0;
}

假设 file.bin 包含512\0256\0128\0：

$ hexdump -C file.bin
00000000  35 31 32 00 32 35 36 00  31 32 38 00              |512.256.128.|

现在，当在Ubuntu机器上根据GCC 4.8.4进行编译时，生成的程序会按预期读取数字并将512, 256, 128打印到stdout。
在Windows上使用MinGW 4.8.1进行编译会得到相同的预期结果。

然而，当我使用Visual Studio Community 2015编译代码时，似乎有一个主要的区别;即输出为：

512, 56, 28

正如您所看到的，fscanf()已经使用了尾随空字符，因此fgetc()会捕获并丢弃对数据完整性至关重要的字符。

注释掉fgetc()行会使代码在VC中运行，但会在GCC（以及可能的其他编译器）中破坏它。

这里发生了什么，如何将其转换为可移植的C代码？我是否遇到了未定义的行为？请注意，我假设采用C99标准。

Answer 1

TL; DR ：您已经被MSVC不合格所困扰，这是MS长期以来一直没有表现出解决问题的问题。如果除了符合C实现之外还必须支持MSVC，那么一种方法是在程序通过MSVC编译时使用条件编译指令来抑制fgetc()调用。

我倾向于同意通过格式化I / O功能读取二进制数据是一个值得怀疑的计划。然而，更值得怀疑的是

的组合

使用Windows上的Visual Studio编译它

和

假设C99标准。

据我所知，没有版本的MSVC符合C99。最近的版本可能会更好地符合C2011，部分原因是因为C2011使得某些功能在C99中是强制性的。

无论您使用哪种版本的MSVC，我认为它都不符合该领域的标准（C99和C2011）。以下是C99, section 7.19.6.2

的相关文字

转换规范按以下步骤执行：

[...]

从流[...]中读取输入项。输入项被定义为输入字符的最长序列，其不超过任何指定的字段宽度，并且是匹配的输入序列的前缀，或者是匹配的输入序列的前缀。输入项目之后的第一个字符（如果有）仍然未读。

标准非常清楚，与输入序列不匹配的第一个字符仍未读取，因此MSVC被认为符合的唯一方式是\0个字符是否可被解释为是（并终止）的一部分）匹配的输入序列，或者如果允许fgetc()跳过\0个字符。我认为后者没有任何理由，特别是考虑到流以二进制模式打开，所以让我们考虑前者。

对于u转化说明符，匹配的输入序列为defined

匹配一个可选的带符号十进制整数，其格式与strtoul函数的主题序列的预期格式相同，其基值参数值为10.

“strtoul函数的主题序列”定义为in that function's specifications：

首先，他们将输入字符串分解为三个部分：一个初始的，可能是空的白色空格字符序列（由isspace函数指定），一个类似于整数表示的整数的主题序列，由某个基数表示。 base，以及一个或多个无法识别的字符的最终字符串，包括输入字符串的终止空字符。

请特别注意，终止空字符显式归因于无法识别字符的最终字符串。它不是主题字符串的一部分，因此在根据fscanf()说明符转换输入时不应与u匹配。

Answer 2

fscanf的MSVC实施显然是＆＃34;垃圾＆＃34; NUL旁边的512字符：

fscanf(file, "%u", &num1);

根据fscanf文件，这不应该发生（强调我的）：

对于除n之外的每个转换说明符，最长的序列输入字符不超过任何指定的字段宽度和其中正好是转换说明符所期望的或者是它所期望的序列的前缀是从中消耗的流。消耗序列后的第一个字符（如果有） 仍然未读。

请注意，这与人们希望跳过尾随白色字符的情况不同，如下面的陈述所述：

fscanf(file, "%u ", &num1); // notice "%u "

规范说，只有当isspace属性标识字符时才会发生这种情况，如果已检查，则不会保留（即isspace('\0')产生0）。

在MSVC和GCC中都适用的hacky，类似regex的解决方法可能是将fgetc替换为：

fscanf(file, "%*1[^0-9+-]"); // skip at most one non-%u character

或者通过用文字数字替换实现定义的 0-9字符类来移植：

fscanf(file, "%*1[^0123456789+-]"); // skip at most one non-%u character

fscanf（）在不同编译器中的行为不一致（消耗尾随空字符）

2 个答案: