在磁盘上存储一组protobufs

时间:2013-01-09 02:22:22

标签: serialization storage protocol-buffers thrift

我使用protobuf作为序列化程序来格式化磁盘上的数据。我可能有一大套protobuf对象,比如数百万个。在磁盘上布局它们的最佳选择是什么? protobuf对象将逐个顺序读取或由外部索引随机读取。

我曾经使用lenghth(int)+ protobuf_object + length(int)....格式,但是如果其中一个protobuf碰巧是脏的,它就失败了。如果许多protobuf对象很小,它可能会有一些开销。

2 个答案:

答案 0 :(得分:2)

(我希望我能正确理解你的问题,我的回答符合你的用例!)

将任意协议缓冲区消息流存储到磁盘的一种技术是定义一个包装器消息,其中所有字段都定义为repeated(这意味着optional),然后当您读入你得到一个包装类的实例并在其上调用hasX()方法来查找你实际拥有的内容。在您的情况下,这种方法的问题是你没有随机访问而没有真正的流媒体(Foo类型的所有消息将在一起,然后是所有Bar s),如果你的数据太大你将无法将所有内容融入记忆中。

事实上,您基本上要求一种方法来存储任何类型的数据,以便可以流式传输或随机访问。这是一个普遍的问题,而不是特定于Protocol Buffers的东西。

你的问题是:

  • 划分记录......(见注释)
  • ......以这种方式可以检测到损坏并且可以容忍或修复......
  • ...同时维护索引以允许随机访问

您可能会使用索引来允许某种完整性检查,但即使这样也需要一种机制来确保索引和数据对应并保持同步。

因此,它可能不是理想的解决方案,但实现您想要的一种方法,特别是如果完整性是一个问题,是将此信息存储在允许存储二进制数据的数据库中,并可以快速返回该数据。随后访问和数据完整性的问题将成为数据库提供者的责任。任何能够存储BLOB的传统数据库都能够做到,但我也考虑将它存储在NoSQL中,例如MongoDB。

注意

如果你仔细定义你的协议缓冲区(即你知道存储的字段的类型和长度),那么你实际上不需要划分你的记录,因为它们的长度永远不会改变。但是,这将破坏Protocol Buffers的一个特性,即其面向未来的特性。如果您以消息大小已修复的方式设计.proto,则无法添加新字段并仍然适合相同的文件格式,安全地说每条新消息都在x字节之后开始。

答案 1 :(得分:2)

如果您只需要顺序访问,则存储多条消息的最简单方法是在文档之前写入对象的大小,如文档所示:http://developers.google.com/protocol-buffers/docs/techniques#streaming

例如,您可以使用以下成员函数创建一个“MessagesFile”类来打开,读取和写入您的消息:

// File is opened using append mode and wrapped into
// a FileOutputStream and a CodedOutputStream
bool Open(const std::string& filename,
          int buffer_size = kDefaultBufferSize) {

    file_ = open(filename.c_str(),
                 O_WRONLY | O_APPEND | O_CREAT, // open mode
                 S_IREAD | S_IWRITE | S_IRGRP | S_IROTH | S_ISUID); //file permissions

    if (file_ != -1) {
        file_ostream_ = new FileOutputStream(file_, buffer_size);
        ostream_ = new CodedOutputStream(file_ostream_);
        return true;
    } else {
        return false;
    }
}

// Code for append a new message
bool Serialize(const google::protobuf::Message& message) {
    ostream_->WriteLittleEndian32(message.ByteSize());
    return message.SerializeToCodedStream(ostream_);
}

// Code for reading a message using a FileInputStream
// wrapped into a CodedInputStream 
bool Next(google::protobuf::Message *msg) {
    google::protobuf::uint32 size;
    bool has_next = istream_->ReadLittleEndian32(&size);
    if(!has_next) {
        return false;
    } else {
        CodedInputStream::Limit msgLimit = istream_->PushLimit(size);
        if ( msg->ParseFromCodedStream(istream_) ) {
            istream_->PopLimit(msgLimit);
            return true;
        }
        return false;
    }
}

然后,写下你的消息:

MessagesFile file;
reader.Open("your_file.dat");

file.Serialize(your_message1);
file.Serialize(your_message2);
...
// close the file

阅读所有邮件:

MessagesFile reader;
reader.Open("your_file.dat");

MyMsg msg;
while( reader.Next(&msg) ) {
    // user your message
}
...
// close the file
相关问题