将韩语文本转换为Unicode

时间:2009-11-18 16:07:49

标签: c# unicode cjk

我想问的问题很简单。我有一个HTML文档,它托管在一个webbrowser控件中。

现在,当我使用MSHTML范围属性选择韩语单词时,我能够得到 range.htmlTextrange.Text。他们都显示韩语单词。我想要做的就是将其转换为unicode格式。

有可能吗?

仅供参考我使用C#WinForms进行所有这些操作。

1 个答案:

答案 0 :(得分:1)

您能提供更多信息吗?阅读时“韩语单词”的格式是什么? (我假设与HTML文档标题相同。)您是否可以发布您尝试阅读的示例HTML页面?

如果问题是你得到的字符串只是在不同的代码页中,你可以使用.Net中的编码类来转换它。例如,您的文本可能是iso-2022-kr。下面是一个转换字符串的示例,在下面的代码中称为“stringInKoreanIsoEncoding”:

Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding));
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);