c - 在非常大的文件上优化mmap

在非常大的文件上优化mmap

时间：2016-07-20 13:35:36

标签： c algorithm mmap

我有一个非常大的文件150 GB。我使用只读mmap并在文件中执行二进制搜索。

目前二进制搜索执行速度很慢。

然而，我正在考虑进行优化 - 当我检查（磁盘搜索）某些值时，所有值＆＃34;围绕＆＃34;此值已经存入内存，因为它们属于同一个磁盘块。我可以检查＆＃34;附近＆＃34;而不是跳到文件中的其他位置。之后的数值和跳跃。

这种优化值得吗？

另外，我如何估计磁盘块的结束位置＆＃34;。

1 个答案:

答案 0 :(得分：6)

您偶然发现了导致B-tree数据结构的推理线。你想象的值得做的优化是值得做的，但为了尽可能多地获取它，你需要大量重新组织磁盘上的数据并使用比二进制搜索更复杂的算法。您应该查看现有的开源B树库，而不是从头开始实现。

因为您使用的是mmap，所以访问的最小粒度不是磁盘块大小，而是内存“页面”大小，可以使用sysconf(_SC_PAGESIZE)查询。一些操作系统会在随机访问文件支持的区域时读取和填充更大的内存块，但我不知道有任何可移植的方法来查明多少。您也可以从madvise(MADV_RANDOM)获得一些好处。

相关问题

Mmap（）一个完整的大文件

在两个非常大的表上优化我的查询

优化非常大的csv文件中的搜索

Powershell - 优化非常非常大的csv和文本文件搜索和替换

在C ++中有效地读取非常大的文本文件

优化非常大的稀疏矩阵的秩计算

PHP优化非常大的数组

优化超大距离矩阵处理工作流程

优化非常大的LINQ查询

在非常大的文件上优化mmap

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？