python - 精确控制h5py缓冲

精确控制h5py缓冲

时间：2018-01-30 09:18:55

标签： python hdf5 h5py

我在内存中有一些数据要存储在HDF文件中。

我的数据不是很大（<100 MB，所以它们非常适合内存），所以对于性能来说，保持它们似乎是有意义的。同时，我也想将它存储在磁盘上。两个总是完全同步并不重要，只要它们都有效（即没有损坏），并且我可以手动触发同步。

我可以将我的数据保存在内存中的单独容器中，并根据需要将其铲入HDF对象。如果可能的话我想避免写这个图层。这需要我跟踪哪些部分已被更改，并有选择地更新这些部分。我希望HDF会照顾我。

我知道具有后备存储功能的driver='core'，但它是AFAICT，它只在关闭文件时同步后备存储。 我可以flush该文件，但是这样可以保证将对象写入存储吗？

从查看HDF5源代码，似乎答案是肯定的。但是我想听听确认。

加分问题：driver='core'实际上比普通文件系统后端更快吗？我需要注意什么？

2 个答案:

答案 0 :(得分：1)

H5Fflush命令对文件系统执行请求以将所有缓冲区传输到文件。

documentation有一个特别说明：

HDF5无法完全控制缓冲。 H5Fflush冲洗然后内部HDF5缓冲区要求操作系统（OS）刷新打开文件的系统缓冲区。之后，操作系统就是负责确保数据实际刷新到磁盘。

在实践中，我注意到我可以使用大部分时间从已刷新的HDF5文件中读取数据（即使该进程随后被杀死）但HDF5无法保证这一点：没有安全性依赖于刷新操作来获得有效的HDF5文件，因为进一步的操作（例如，在元数据上）可能会破坏文件，然后进程被中断。您必须完全关闭文件才能保持这种一致性。

答案 1 :(得分：0)

如果您需要一致性并避免损坏的hdf5文件，您可能希望：

1）使用write-ahead-log，使用追加日志写入每次添加/更新的内容，此时无需写入hdf5。 2）定期或在您需要关闭时重放日志以逐个应用它们，写入hdf5文件 3）如果您的进程在1）期间停机，您将不会丢失数据，下次启动后，只需重播日志并将其写入hdf5文件 4）如果您的进程在2）期间关闭，您将不会丢失数据，只需删除损坏的hdf5文件，重播日志并再次写入。