hadoop - 1个平面文件，取决于值的不同架构

如果您只有一个文件，则Hive无法查询具有更改架构的多行

使用Hive最好的办法是为标签的最大宽度定义每一列，然后其余的“空列”将为NULL。它可以工作，但查询时看起来并不干净。

抱歉，我不熟悉Hbase。

至于Avro，一个avro文件只能具有一个架构。因此，像Hive一样，您需要为没有列的行定义每个字段和默认值

我个人使用Pig或Spark来过滤您的标签，将它们写入不同的文件，然后使用它们创建Hive（或可能的Hbase）表。假设您实际上需要一个持久的查询层，而不是简单地处理原始文件中Spark中的所有数据

您可以公开Spark Thriftserver进行交互式查询