如何处理stan中缺少的数据?

时间:2016-02-06 16:34:35

标签: python stan

我是斯坦的新手,我正在实施概率矩阵分解模型。

给定用户项目评级矩阵:

                       item
 user     1    3   NA   4     5    NA
          2    0    3   NA    1     5
          1    1    NA  NA    NA    0
          ....

我应该如何表示data块中的可观察数据以及parameter块中预测的缺失数据?

提前谢谢!

编辑:

现在我正在实施如下模型:

pmf_code = """
data {

int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor 
int<lower=0, upper=N> ii[D]; //item 
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating

}

parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;

}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
    I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

for (n in 1: N){
    u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
    i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
    r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""     

但在这行代码中出现No matches for: real ~ normal(matrix, real)错误:

for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

但是jj[d]应该是一个整数,表示user的id。而且[[int]应该是row_vector k因素,i[ii[d]]也是matrix。它们的产品应该是一个真正的价值,为什么斯坦说它是{{1}}?

2 个答案:

答案 0 :(得分:7)

Stan手册中有一章介绍了如何处理丢失或稀疏的数据。在这种情况下,它缺少数据。你想要做的是把它放在长形式(R的重塑包调用熔化形式):

int<lower=0> I; // number of items int<lower=0> J; // number of users int N; // number of observations int<lower=1, upper=I> ii[N]; // item int<lower=1, upper=J> jj[N]; // user int<lower=0, upper=5> y[N]; // rating

然后,对于每次观察n,您都有jj[n]用户将评分y[n]分配给项目ii[n]

在手册的回归部分的IRT模型中有一个这样的例子。但是你有一个序数结果,这有点棘手。你可以做某种直接的序数逻辑,可能是分层的,或者你可以尝试做一些像因子模型(比如每个人用于Netflix的部分SVD)。手册中还有一些因子模型的例子 - 您可以使用它们来生成序数回归的线性预测器。

然后,如果您想预测项目y[m]和用户i的某些新组合的j,您可以在生成的数量块中将其作为后验预测数量。你可以通过抽样或期望来做到这一点;在潜在离散参数章节的变点模型中以及预测的回归章节中都有一个例子。

答案 1 :(得分:1)

Stan既没有丢失数据符号也没有估计离散未知数的能力,所以你提出的建议几乎是不可能的,也不是学习Stan的重要切入点。这在Stan用户手册中有解释。

原则上,您可以传入非缺失数据和一个二维整数数组,如果用户缺少该项,则为0;如果为该用户观察该项,则为1。然后,您需要为每个用户和项目声明一个潜在的实用程序,如果观察到数据点,则将它们限制在正确的两个切割点之间,并调整您用于获取潜在实用程序的转换的派生的绝对值。切点。如果缺少数据点,则相应的潜在实用程序不受约束。这基本上是Gibbs采样器使用的数据增强方法,尽管Stan不是Gibbs采样器。然后,为潜在的实用程序指定模型(将错误的大小限制为1)并希望获得最佳效果。很可能会有很多不同的过渡,这需要你将adapt_delta设置得非常接近1以消除它们。

我们对此方法的一个例子最接近的是多变量概率model,但这是为了更简单的二元结果。

相关问题