如何序列化大型集合

时间:2013-09-13 14:04:57

标签: c# serialization protobuf-net large-object-heap

我正在使用一个包含超过五百万个项目的列表和词典的系统,其中每个项目通常是一个具有多达90个原始属性的平面dto。使用protobuf-net将集合持久保存到磁盘,以实现弹性和子序列处理。

不出所料,我们在处理和序列化过程中遇到了LOH。

我们可以在处理过程中使用ConcurrentBag等来避免LOH,但在序列化时我们仍遇到问题。

目前,集合中的项目被批量分组为1000个并且并行地序列化为内存流。每个字节数组都放在一个并发队列中,以便稍后写入文件流。

虽然我明白这是在尝试做什么,但它似乎过于复杂。感觉就像protobuf本身应该有一些东西可以在不使用LOH的情况下处理大量的收藏。

我希望我犯了一个男生错误 - 我忽略了一些设置。否则,我将寻求编写自定义二进制读取器/写入器。

我应该指出我们正在使用4.0,希望尽快转向4.5,但要意识到尽管GC有所改进,我们仍然无法解决这个问题。

任何帮助表示感谢。

1 个答案:

答案 0 :(得分:0)

将数据写入磁盘,不要使用内存流。

使用StreamReader读取,因此您不必在内存中保留大量数据 如果你需要在同一时间加载所有数据来进行处理,那么在SQL Server中通过在temprory表中记录它们来做它。

内存不是存储大数据的地方。