apache-spark - 用于apache访问日志的Cassandra数据模型

在POC中，我们使用cassandra存储（除此之外）Apache访问日志（已解析）并与apache spark + zeppelin一起使用。我们设法使事情有效但我们对如何正确建模数据非常不确定。

修改：我们的查询将持续数月和数年，而不是数周和数天。反对生产工作可能每天（至少目前）执行，我们将在开发过程中使用较小的数据集。

由于这只会用于分析，因此查询几乎可以是任何内容，但我们当然可以提前考虑一些查询。

I.e

分区键+主键。这真的很难......我唯一能想到的就是（（userid，[webresource]），timestamp）。至少这会给出相当均匀的分布。否则我们将不得不使用校验和或感觉不对的东西。

或者我应该为不同的类型设置不同的表，例如延迟，地理位置等？或者这是物化视图的好选择吗？

我搜索过这样的东西没有任何运气，所以也许cassandra对于这个仍然是一个糟糕的解决方案，我们真的希望看到我们能走多远。

无论如何，任何意见都非常感谢！

问候/约翰