修复UTF-8编码为ISO-8859-1

时间:2015-01-07 15:37:21

标签: character-encoding

假设您有一个包含UTF-8字符和UTF-8字符的文件,曾经被认为是ISO-8859-1的程序读过。所以你有“Ô而不是“é”之类的东西。你是怎么解决的?

1 个答案:

答案 0 :(得分:1)

我终于想出了一个单独的sed命令,为我完成了这项工作:

LANG='' sed -re 's/(\xc3)\x83\xc2([\x80-\xbf])/\1\2/g'

它不处理unicode代码点0xA0到0xBF,但它应该很容易适应那些。