读取文件并写入DB

时间:2011-06-01 02:59:20

标签: .net xml memory-management datatable

昨天在接受采访时,我被问到这个问题,我提供的答案似乎没有给面试官留下深刻印象。 :(

以下是方案......文件在换行分隔记录中具有逗号分隔的属性值。要求此文件必须进入具有匹配列列的数据库表。该文件具有自引用列,即一列“Id”保存记录的唯一非空id,并且存在另一列“LinkId”,其包含某些其他记录的id。该值可以为空。

要求:文件必须以相同的顺序插入数据库,但一次全部插入!这意味着没有多个插入。

问题:如何在.Net框架中实现这一目标(您可以使用最新的4.0框架)

我给出的解决方案:逐行读取文件并将其解析为所需的XML。然后使用DataTable.ReadXML()调用将文件立即加载到数据表中并提交包含数据表的数据集。

Challanges:

100 GB的文本文件怎么样?它会以这种方式工作吗?功能有多慢?如果我们必须将XML保存到内存中以获得100 GB的数据,那么系统的虚拟地址空间是否会支持它?页面交换不会导致问题并变得缓慢吗?

DataTable.ReadXML()是否适用于如此庞大的XML?数据集是否能够提交?

我的回答: - /

任何想法的人?

THX 哈里什。

3 个答案:

答案 0 :(得分:2)

如果您使用的是SQL Server,则可以使用BULK INSERT命令

http://msdn.microsoft.com/en-us/library/ms188365.aspx

基本上,您设置了一个SQLCommand对象,将CommandText设置为:

sqlCommand.CommandText = "BULK INSERT " & tableName & " FROM '" & file & "' WITH(TABLOCK, FIELDTERMINATOR=',')
sqlCommand.ExecuteNonQuery()

tableName - 是要插入的表的名称 file - 是您希望SQL Server读取的文件的名称。您需要确保SQL Server可以到达存储文件的位置。这包括ACL权限和网络连接。

BULK INSERT命令有很多选项,我过去曾经使用它,它的效果非常好。

答案 1 :(得分:1)

无论如何,你都会有多个插件。如果文件不是太大,最简单的方法是先创建一个数据库事务,然后逐行读取并在每行创建一个insert命令。一旦读取了所有行,就可以提交事务。

对于100GB的文本文件,我首先会将其分解为更小的插件块。也许每1000行提交一次交易?

“Id”和“LinkId”字段看起来像经典的父>孩子与我的关系。因此,只要首先插入父级,就不会有问题。

您没有提到这将是什么类型的数据库,但如果它是MSSQL,那么您还可以使用Linq to Sql为每行创建一个新对象并将其添加到列表中。假设您正在使用C#,您可以使用:

List<YourObject> YourList = new List<YourObject>();

using(System.IO.StreamReader file = new System.IO.StreamReader("C:\yourstorage.txt")) {
    while((line = file.ReadLine()) != null) {
        string[] fields = line.Split(',');

        YourObject obj = new YourObject();
        obj.FieldX = fields[0];
        obj.FieldY = fields[1];
        obj.FieldZ = fields[2];

        YourList.Add(obj);
    }
}

using(YourDataContext db = new YourDataContext()) {
    db.YourObjects.InsertAllOnSubmit(YourList);
    db.SubmitChanges();
}

其中YourObject是已添加到项目中的Linq to Sql模型,而YourObjects是数据库中的实际表名。但是对于一个巨大的文件来说,这可能会占用大量内存。

答案 2 :(得分:0)

显然,您可以使用OLEDB打开CSV文件see this for example,从那里可以很容易地将数据从一个数据库传输到另一个数据库。

我不确定它是否真的摆脱了内存问题,但它比在内存中构建XML副本要好得多。