c++ - 从文件中快速加载大型数据结构

从文件中快速加载大型数据结构

时间：2014-06-19 18:24:08

标签： c++ algorithm serialization data-structures trie

我有一个很大的英语单词词典（大约70k），我在程序开头加载到内存中。它们被加载到基数数据结构中，并且每个trie节点通常具有从一个节点到许多其他节点的许多链接（例如，词语反义词，“死” - >“活着”，“好”）。每个节点中还有一个std::vector<MetaData>，其中包含我的程序的各种其他元数据。

现在，问题在于此文件的加载时间。从磁盘读取文件，反序列化并为事物分配数据结构通常需要很长时间（4-5秒）。

目前，我正在努力异步（或逐位，每帧的一小部分）加载，但由于应用程序的性质（它是一个移动键盘），有很多次它在哪里只需要快速加载。

如何加快加载速度？内存池一切？我正在对不同的部分进行基准测试以查看可以优化的内容，但看起来，到目前为止，这只是一些小问题。

4 个答案:

答案 0 :(得分：3)

如果trie是静态的（即程序运行时不会改变），则使用数组索引代替指针在数组中构建优化版本。然后，您可以将其保存为数据文件。然后启动只是将该数据块加载到内存中。

这样做会使一些事情变得不那么方便（例如，你必须使用数组而不是std::vector），你可能需要做一些演员，但是有点想到你结束了具有非常紧凑和非常快速的数据结构，不会受到与为每个节点创建对象相关的分配开销的影响。相反，它本质上是一个不同长度结构的数组。

我为使用有向无环字图（DAWG）的应用程序执行了此操作。我没有在每次加载程序时重建DAWG（这是一个耗时的过程），而是有一个实用程序来创建DAWG并将其作为数据文件提供，而不是单词列表。

答案 1 :(得分：1)

不知道细节，只是一个模糊的想法：

加载批量数据（条目）将为您提供基本字典。

对于所有交叉引用（如同义词和反义词等），在您显示＆＃34; ready＆＃34;之后，在后台加载和处理数据。机会是，直到A.用户在第一个查询中输入，你就是船形。

<强>后来

如果文件相当大，读取压缩版本可能会获得。

此外，缓冲区大小适当增加的BufferedReader可能有所帮助。

答案 2 :(得分：1)

您应该检查数据结构，以便加快数据加载速度此外，拆分成多个表可能会加快速度。

例如，有一个用于单词的表，另一个用于同义词的表和用于其他关系的附加表。

第一个表应该有组织。这允许同义词表表示为;哪个应该快速加载。

然后，您可以根据加载的数据构建任何内部容器。存储数据与内部数据具有不同数据结构的原因是为了优化。用于数据存储（和加载）的结构针对加载进行了优化。内部数据的结构针对搜索进行了优化。

答案 3 :(得分：0)

另一个想法是基于它是一个移动键盘应用程序的事实。有些单词的使用频率高于其他单词，所以也许你可以组织它，这样就可以先加载常用的单词，然后根据需要（或者你有时间）加载不经常使用的单词。