c++ - 你如何编写对UTF-8安全的代码？

你如何编写对UTF-8安全的代码？

时间：2008-09-25 16:30:20

标签： c++ unicode utf-8 globalization

我们有一组为ASCII字符集开发的应用程序。现在，我们正试图在冰岛安装它，并且遇到了冰岛角色搞砸的问题。

我们正在解决我们的问题，但我想知道：是否有一个很好的“指南”用于编写专为8位字符设计的C ++代码，并且在为其提供UTF-8数据时可以正常工作？

我不能指望每个人都阅读整个Unicode标准，但如果有更易于理解的内容，我想与团队分享，以便我们不再遇到这些问题。

此时重写所有要使用wchar_t或其他字符串表示的应用程序是不可行的。我还要注意，这些应用程序通过网络与使用8位字符的服务器和设备进行通信，因此即使我们在内部执行Unicode，我们仍然会遇到边界转换问题。在大多数情况下，这些应用程序只传递数据;他们不会以任何方式“处理”文本，除了将文本从一个地方复制到另一个地方。

使用的操作系统是Windows和Linux。我们使用std :: string和普通的C字符串。（并且不要让我为任何设计决定辩护。我只是想帮助解决这个问题。）

以下列出了已建议的内容：

8 个答案:

答案 0 :(得分：10)

大部分都是8位清洁。但是，您必须注意，任何非ASCII字符都会分割多个字节，因此如果要显示换行符或截断文本，则必须考虑这一点。

UTF-8的优势在于您始终能够确定多字节字符的位置：如果第7位置1且第6位复位（字节为0x80-0xBF），则这是一个尾随字节，而如果是第7位设置为6，复位为5（0xC0-0xDF），它是一个带有一个尾随字节的前导字节;如果设置了7,6和5并且复位了4（0xE0-0xEF），则它是带有两个尾随字节的前导字节，依此类推。设置在最高有效位的连续位数是组成字符的总字节数。那就是：

110x xxxx =双字节字符
1110 xxxx =三字节字符
1111 0xxx =四字节字符
等

冰岛语字母表全部包含在ISO 8859-1中，因此包含在Windows-1252中。如果这是一个控制台模式应用程序，请注意控制台使用IBM代码页，因此（取决于系统区域设置）它可能显示在437,850或861中。 Windows没有UTF-8的原生显示支持;您必须转换为UTF-16并使用Unicode API。

如果是控制台模式应用程序，则调用SetConsoleCP和SetConsoleOutputCP（指定代码页1252）将有助于解决您的问题。不幸的是，选择的控制台字体必须是支持代码页的字体，我看不到设置字体的方法。标准位图字体仅支持系统默认的OEM代码页。

答案 1 :(得分：3)

这看起来像一本全面的快速指南：
http://www.cl.cam.ac.uk/~mgk25/unicode.html

答案 2 :(得分：1)

请注意，完整的unicode不适合16位字符;所以要么使用32位字符，要么使用可变宽度编码（UTF-8是最受欢迎的）。

答案 3 :(得分：1)

UTF-8的设计完全考虑到了您的问题。我要小心的一点是，ASCII实际上是一个7位编码，所以如果你的基础设施的任何部分使用第8位用于其他目的，那可能会很棘手。

答案 4 :(得分：1)

您可能想查看icu。它们可能具有可以使UTF-8字符串更容易使用的功能。

答案 5 :(得分：0)

Icelandic使用ISO Latin 1，因此8位应该足够了。我们需要更多细节来弄清楚发生了什么。

答案 6 :(得分：0)

冰岛语，如法语，德语和西欧的大多数其他语言，可以使用8位字符集（Windows上的CP1252，* x上的ISO 8859-1也称为Latin1）来支持。这是Unicode发明之前的标准方法，并且仍然很常见。正如你所说，你有一个约束，你不能重写你的应用程序使用wchar，你不需要。

你不应该对UTF-8造成问题感到惊讶; UTF-8将非ASCII字符（例如带有重音的拉丁字符，刺，eth等）编码为两个字符。

唯一可以给出的一般建议很简单（理论上）：（1）决定你要支持的字符集（Unicode，Latin1，CP1252，...）（2）如果您提供以其他方式编码的数据（例如UTF-8），则将其转码为系统边界处的标准（例如CP1252）（3）如果你需要提供以其他方式编码的数据，......

答案 7 :(得分：-1)

您可能希望使用宽字符（wchar_t而不是char和std :: wstring而不是std :: string）。这不会自动解决100％的问题，但这是第一步。

还使用支持Unicode的字符串函数（请参阅文档）。如果有东西操纵宽字符或字符串，它通常会意识到它们很宽。