键/值对的哪种序列化格式在RDBMS中最佳可索引?

时间:2009-07-18 12:14:02

标签: java serialization hash indexing

我有一个存储在数据库中的特定对象类型。此类型现在获得与其关联的附加信息,这些信息在实例之间将有所不同。虽然对于实例组,信息的结构相同,但结构只能在运行时知道,并且会随着时间的推移而变化。

我决定只在表中添加一个blob字段,并以某种序列化格式存储键/值对。根据您的经验,最合适的格式是什么?

在我的应用程序环境中,此存储空间是次要的。我想要快速执行一个特定的操作,即为给定的一组键/值对查找正确的实例(因此它是一种可变字段组合键)。我想这意味着,是否有一种格式在典型的数据库索引中表现得特别好?

此外,我可能有兴趣寻找一组共享同一组密钥的实例(如果您愿意,可以使用特殊的“类”)。

我用Java写这个,我存储在各种类型的SQL数据库中。我已经在我的雷达上获得了JSON,GPB和本机Java序列化,支持跨语言格式。我可以想到两个基本策略:

  • 将值集存储在表中,并将外键添加到包含该组键的单独表中
  • 将键/值对存储在表格中

2 个答案:

答案 0 :(得分:1)

不是您问题的答案,但您是否考虑过查看Java Edition of BerkeleyDB?可以使用此(快速)引擎存储重复键和序列化值。

答案 1 :(得分:1)

如果您的目标是利用数据库索引,那么将非结构化数据存储在BLOB中将不会有效。从RDBMS的角度来看,BLOB基本上是不透明的。

我从你的描述中收集到,数据的非结构化部分采用与对象关联的任意一组键值对的形式,对吧?好吧,如果所有键的类型相同(例如它们都是字符串),我建议只创建一个包含(至少)三列的子表:键,值和父键的外键对象在其表中的行。由于密钥将作为常规列存储在数据库中,因此可以有效地对其进行索引。索引还应包括父表的外键。

完全不同的方法是查看像CouchDB这样的“无模式”数据库引擎,该引擎专门用于处理非结构化数据。我对这些系统没有任何经验,我不知道你的应用程序的其余部分是否适合这种替代存储策略,但它可能值得研究。

相关问题