Cassandra分割复合键

时间:2015-07-22 19:02:11

标签: cassandra cassandra-2.0

据我所知,如果我们有一个主键,则使用此密钥来分区数据并将其存储在节点中(例如使用随机分区器)。

现在我不确定的是,如果我有多个keys(也就是复合键),用于分区数据的键的组合还是第一个主键?

例如,对于单个键列族,例如:

CREATE TABLE IF NOT EXISTS users (
    userid uuid,
    emailaddress text,
    birthday timestamp,
    PRIMARY KEY (userid)
);

我知道userid用于确定应该对哪个节点users进行分区。

如果我将此表更改为

CREATE TABLE IF NOT EXISTS users (
    userid uuid,
    emailaddress text,
    birthday timestamp,
    PRIMARY KEY (userid, emailaddress)
);

这是否意味着现在将useridemailaddress一起使用以确定分区?

是否可以在两个单独的节点中分配具有相同userid但不同emailaddress的两行,或者它们是否始终位于同一节点中?

非常感谢,

1 个答案:

答案 0 :(得分:5)

实际上在你的例子中

CREATE TABLE IF NOT EXISTS users (
    userid uuid,
    emailaddress text,
    birthday timestamp,
    PRIMARY KEY (userid, emailaddress)
);

userid是分区键部分,emailaddress是集群列,在cqlsh中是

cqlsh:rw> CREATE TABLE users ( userid INT, email TEXT, data TEXT, PRIMARY KEY ( userid, email ) );
cqlsh:rw> SELECT * FROM users WHERE userid = 0;

 userid | email | data       

分区键部分由内部大括号()

定义
CREATE TABLE IF NOT EXISTS users (
    userid uuid,
    emailaddress text,
    birthday timestamp,
    PRIMARY KEY ((userid, emailaddress))
);

现在你将拥有由userid和emailaddress组成的分区键以及cqlsh中的分区键

cqlsh:rw> CREATE TABLE users ( userid INT, email TEXT, data TEXT, PRIMARY KEY ( ( userid, email ) ) );                                                                                                                                                                     
cqlsh:rw> SELECT * FROM users WHERE userid = 0;
code=2200 [Invalid query] message="Partition key part email must be restricted since preceding part is"     

现在提出您的问题 - >是的,因为你只有复合键分区键部分作为用户ID。

有趣的信息来源: http://docs.datastax.com/en/cql/3.1/cql/cql_reference/refCompositePk.html

尝试的好工具是cqlsh - 它可以帮助你测试很多东西。例如在cqlsh输出中,分区键列为红色,聚类列为青色/蓝色,数据列为紫色 - 非常有帮助

评论更新 继续第二种情况,查询

cqlsh:rw> SELECT * FROM users WHERE userid = 0 AND email = '';

 userid | email | data
--------+-------+------

将成功,因此您必须始终指定用户ID和电子邮件

要查询一个用户和多个电子邮件地址,您可以使用

SELECT * FROM users WHERE userid = 0 AND email IN ( 'a', '4' );

 userid | email | data
--------+-------+------

然而,IN子句很昂贵,因为这意味着联系节点必须连接许多节点才能收集数据,因此最好使用并行查询,但您还必须指定电子邮件值。第一个选择的第二个案例以错误结束。但是从示例中,一个用户可以拥有许多电子邮件,因此第一种情况应该足够 - 取决于数据库的期望。在第二种情况下,如果没有电子邮件字段,它将无法工作。

在第一种情况下

CREATE TABLE users ( userid INT, email TEXT, data TEXT, PRIMARY KEY ( userid, email ) );
INSERT INTO users (userid, email , data ) VALUES( 0, 'email@a.pl', 'ddd');
INSERT INTO users (userid, email , data ) VALUES( 0, 'email1@a.pl', 'ddd1111');

您将插入一些按电子邮件地址聚类的数据,因此您将拥有一个用户的关系 - >通过电子邮件发送的许多数据至少是您在评论中提出的问题。这是结果

cqlsh:rw> SELECT * FROM users WHERE userid = 0;

 userid | email       | data
--------+-------------+---------
      0 | email1@a.pl | ddd1111
      0 |  email@a.pl |     ddd