将分组模型应用于数据

时间:2014-06-22 23:21:54

标签: r dplyr

我适合这样的模型

groupedTrainingSet = group_by(trainingSet, geo);
models = do(groupedTrainingSet, mod = lm(revenue ~ julian, data=.))

grouptedTestSet = group_by(testSet, geo);
// TODO: apply model back to test set

模型看起来像

 geo     mod
1   APAC <S3:lm>
2  LATAM <S3:lm>
3     ME <S3:lm>
7    ROW <S3:lm>
4     WE <S3:lm>
5     NA <S3:lm>

我想我应该可以申请&#39;做&#39;但是我没有看到它......或者我可以按照

的方式做点什么
apply(trainingData, fitted =
    predict(select(models, geo==geo)$mod, .));

但我不确定那里的语法。

2 个答案:

答案 0 :(得分:8)

根据@ Mike.Gahan使用的方法,这是获得类似答案的dplyr方法:

library(dplyr) 

iris.models <- iris %>%
  group_by(Species) %>%
  do(mod = lm(Sepal.Length ~ Sepal.Width, data = .))

iris %>% 
  tbl_df %>%
  left_join(iris.models) %>%
  rowwise %>%
  mutate(Sepal.Length_pred = predict(mod,
                                    newdata = list("Sepal.Width" = Sepal.Width)))

如果您创建预测函数,则可以一步完成:

m <- function(df) {
  mod <- lm(Sepal.Length ~ Sepal.Width, data = df)
  pred <- predict(mod,newdata = df["Sepal.Width"])
  data.frame(df,pred)
}

iris %>%
  group_by(Species) %>%
  do(m(.))

答案 1 :(得分:4)

不确定这里有问题,但我认为data.table包在这里效率特别高。

#Load data.table package
require(data.table)
iris <- data.table(iris)

#Make a model for each species group
iris.models <- iris[, list(Model = list(lm(Sepal.Length ~ Sepal.Width))),
                      keyby = Species]

#Make predictions on dataset
setkey(iris, Species)
iris[iris.models, prediction := predict(i.Model[[1]], .SD), by = .EACHI]

(对于data.table版本&lt; = 1.9.2省略by = .EACHI部分)