编码大文件的转换

时间:2011-07-08 17:23:56

标签: utf-8 large-files utf-16 iconv

我面临一个大的(~18 GB)文件,从SQL Server导出为Unicode文本文件,这意味着它的编码是UTF-16(小端)。该文件现在存储在运行Linux的计算机中,但我还没有找到将其转换为UTF-8的方法。

起初我尝试使用iconv,但文件太大了。我的下一个方法是逐个使用拆分和转换文件,但这也不起作用 - 转换过程中出现了很多错误。

那么,关于如何将其转换为UTF-8的任何想法?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:4)

由于您使用的是SQL服务器,我认为您的平台是Windows。在最简单的情况下,您可以快速编写一个脏的.NET应用程序,它逐行读取源代码并按原样写入转换后的文件。像这样:

using System;
using System.IO;
using System.Text;

namespace UTFConv {
    class Program {
        static void Main(string[] args) {
            try {
                Encoding encSrc = Encoding.Unicode;
                Encoding encDst = Encoding.UTF8;
                uint lines = 0;
                using (StreamReader src = new StreamReader(args[0], encSrc)) {
                    using (StreamWriter dest = new StreamWriter(args[1], false, encDst)) {
                        string ln;
                        while ((ln = src.ReadLine()) != null) {
                            lines++;
                            dest.WriteLine(ln);
                        }
                    }
                }
                Console.WriteLine("Converted {0} lines", lines);
            } catch (Exception x) {
                Console.WriteLine("Problem converting the file: {0}", x.Message);
            }
        }
    }
}

只需打开Visual Studio,启动一个新的C#控制台应用程序项目,将此代码粘贴到那里,编译并从命令行运行它。第一个参数是源文件,第二个参数是目标文件。应该工作。