将一个文件拆分为多个小文件的优化

时间:2013-11-26 13:41:52

标签: c# file-io io text-parsing

我正在尝试将一个大文件(以逗号分隔,每个术语用双引号括起来)拆分成许多较小的文件,基于每个记录中第一个项的键,通常有多个记录具有相同的记录键。

这个大文件的范围可以从1GB到2GB,生成的文件数量可以在10,000-30,000之间,每个文件都在以密钥命名的子文件夹中。

在C#中,我在每一行上执行一个StreamReader.ReadLine(),将结果连接起来,直到它到达另一个键(发出前一个键的最后一个数据的信号),然后调用一个函数来异步写入文件。我正在调用windows排序来对这些文件进行排序以使密钥连续(因此我只需要打开一次文件)但是操作完成仍需要20分钟。有什么方法可以加快速度吗?

sfd = new SaveFileDataDelegate(this.SaveFileData);



private void CSVParse(string filename, string unzippedFilePath, string feedname)
{
    StreamReader filestream = null;
    FileStream readerStream = null;
    try
    {
        readerStream = new FileStream(filename, FileMode.Open, FileAccess.Read, FileShare.None, 120000, FileOptions.SequentialScan);
        filestream = new StreamReader(readerStream, Encoding.UTF8, false, 120000);

        string tempstring = "";
        string buffer = "";
        string lastlotkey = "";
        IAsyncResult result = null;

        activityLog.Log("Parsing File: " + filename);

        while (((tempstring = filestream.ReadLine()) != null) || buffer != "")
        {
            if (tempstring == null)
            {
                tempstring = "";
            }
            string lotkey =  tempstring.Replace("\"","").Split(',').First();
            if (lotkey == tempstring && tempstring != "")
            {
                break;
            }
            if (lotkey == "DealerID")
            {
                continue;
            }
            if (lastlotkey == "")
            {
                lastlotkey = lotkey;
            }
            if ((lotkey != lastlotkey && buffer.Length > 0))
            {
                result = sfd.BeginInvoke(outputDirectory + @"\" + feedname + @"\" + lastlotkey + @"\" + (filename.Split('\\').Last()).Split('.').First() + ".txt", buffer, outputDirectory + @"\" + feedname + @"\" + lastlotkey,null,null);
                lastlotkey = lotkey;
                buffer = "";

                if (tempstring == "")
                {
                    continue;
                }
            }
            if (buffer.Length > 0)
            {
                buffer = buffer + "\r\n";
            }
            buffer = buffer + tempstring;
        }
        filestream.Close();
        readerStream.Close();
        if (result != null)
        {
            result.AsyncWaitHandle.WaitOne(-1);
        }
        return;
    }

    catch (Exception e)
    {
        activityLog.Log("Error Occurred:  " + e.ToString());
        if (filestream != null)
        {
            filestream.Close();
        }
        hadError = true;
        return;
    }
}


private void SaveFileData(string file, string buffer, string directory)
{
    // create file from last lot key with data from parsing, write, close, update lastlotkey
    Directory.CreateDirectory(directory);
    FileStream fs = null;
    StreamWriter temp = null;
    try
    {
        if (!File.Exists(file))
        {
            fs = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write, FileShare.None, 120000);
        }
        else
        {
            fs = new FileStream(file, FileMode.Truncate, FileAccess.Write, FileShare.None, 120000);
        }
        temp = new StreamWriter(fs, Encoding.UTF8, 120000);
        temp.AutoFlush = false;
        temp.WriteLine(headerLine);
        temp.Write(buffer);
        temp.Flush();
        temp.Close();
        fs.Close();
    }
    catch (Exception e)
    {
        activityLog.Log("Error Occurred:  " + e.ToString());
        if (fs != null)
        {
            fs.Close();
        }
        if (temp != null)
        {
            temp.Close();
        }
        hadError = true;
        return;
    }
}

修改

我爬了堆栈溢出和互联网最深的内容,在逐行分析后我发现字符串连接实际上是解析例程的繁重工作(在文件复制和窗口排序之后),用Stringbuilder替换它取得了巨大的进步,总处理时间从20分钟(复制+排序+解析)下降到5分钟的复制+排序和2分钟的解析,总共7分钟。速度提升130%

1 个答案:

答案 0 :(得分:0)

如果删除在硬盘上写入的代码,它的速度有多快? 很多放缓将是因为硬盘驱动器。得到一个ssd:P

由于你循环很多,我会限制循环内的代码。删除重复的代码,并在循环外获取尽可能多的代码。

第一个if不需要sicne你已经在那里检查null。

如果你有很多类似的线路,那么可能不需要一直进行拆分。你可以改用.StartsWith。

如果文件一致,则无需删除“。您可以与”进行比较。

因为你在第二个if中检查一个空的tempstring。也许你想在拆分之前这样做,因为拆分一个空字符串是没用的。

你可以在循环外完成许多用于获取新文件名的字符串操作。