ISO-8859-1编码的字符串为UTF-8字符串

时间:2018-02-02 13:24:18

标签: c# utf-8 character-encoding html-agility-pack

我正在使用HtmlAgilityPack从一些网站上获取一些元数据。但是,很多网站的元数据内容都是用ISO-8857-1编码保存的,所以我得到的字符串如下:

Alt sammen under ét tag.  Kontakt os i dag på

作为一个编码初学者,我完全不知道如何获得常规的UTF-8编码字符串。我试过这样的程序:

Encoding.GetEncoding("iso-8859-1").GetString(Encoding.UTF8.GetBytes(input));

它只是给了我一个更加模糊的字符串。有人能指出我正确的方向吗?当我在隔离块中写入时,即使堆栈溢出也会将iso-8859-1字符转换为正确的字符。

1 个答案:

答案 0 :(得分:3)

你正在寻找吗? "Alt sammen under ét tag. Kontakt os i dag på"作为输出? 在这种情况下,您可能会将字符编码与html编码混淆,html编码是页面字符编码之上的另一层编码。

如果是这种情况,请使用system.web.httputility.htmldecode将字符串设置为"人类可读"。

相关问题