Question

目前，我正在为中国客户开发应用程序。中国客户大多在其OS编码中切换到GB2312语言。我需要编写一个文本文件，使用GB2312进行编码。

我使用 std :: ofstream文件
我在MBCS模式下编译我的应用程序，而不是unicode。
我使用以下代码将 CString 转换为 std :: string ，并使用ofstream将其写入文件

std::string Utils::ToString(CString& cString) {
    /* Will not work correctly, if we are compiled under unicode mode. */
    return (LPCTSTR)cString;
}

令我惊讶的是。它只是有效。我以为我至少需要使用wstring。我试着做一些调查。

这是生成的MBCS.txt。

alt text http://sites.google.com/site/yanchengcheok/Home/stackoverflow0.PNG

我尝试打印一个名为foot的单个字符（其值为0xBDC5）
当我使用CString携带此字符时，其长度为2。
当我使用Utils :: ToString执行到std :: string的转换时，返回的字符串长度为2.
我使用std :: ofstream

我的问题是：

当我使用十六进制编辑器检查MBCS.txt时，该值显示为BD（LSB）和C5（MSB）。但我正在使用小端机。是不是十六进制编辑器应该显示C5（LSB）和BD（MSB）？我从维基百科检查。 GB2312似乎没有具体的字节顺序。
似乎使用std :: string + CString对我的情况很好。我可以知道在什么情况下，上述方法不起作用？什么时候我应该开始使用wstring？

Answer 1

关于1.当您按照较小的单位序列化单位时，字节顺序是您遇到的问题（即按照八位字节序列化单位）。我远不是CJK编码的专家，但在我看来，GB2112是一个编码字符集，可以与几种编码方案一起使用。维基百科页面中引用的用于GB2112（ISO 2022，EUC-CN和HZ）的编码方案都是以八位字节的形式定义的。如果序列化为八位字节，则没有字节序问题。

将此与Unicode编码方案进行对比：UTF-8是根据八位字节定义的，并且在序列化为八位字节时没有字节序问题，UTF-16是根据seizets定义的，如果序列化为八位字节，则必须指定字节序，UTF- 32是按32位单位定义的，如果序列化为八位字节，则必须指定字节顺序。

在下面的例子中是否需要我使用wstring

1 个答案: