Question

我想创建一个新变量，它等于其他两个变量之一的值，以其他变量的值为条件。这是一个假数据的玩具示例。

数据框的每一行代表一名学生。每个学生最多可以学习两门科目（subj1和subj2），并且可以在每个科目中攻读学位（“BA”）或未成年人（“MN”）。我的真实数据包括数千名学生，几种类型的学位，约50个科目，学生最多可以有五个专业/未成年人。

   ID  subj1 degree1  subj2 degree2
1   1    BUS      BA   <NA>    <NA>
2   2    SCI      BA    ENG      BA
3   3    BUS      MN    ENG      BA
4   4    SCI      MN    BUS      BA
5   5    ENG      BA    BUS      MN
6   6    SCI      MN   <NA>    <NA>
7   7    ENG      MN    SCI      BA
8   8    BUS      BA    ENG      MN
...

现在我想要创建第六个变量df$major，如果subj1是学生的主要专业，则等于subj1的值，或subj2的值{} subj2是主要专业。主要专业是第一个学位等于“BA”的学科。我尝试了以下代码：

df$major[df$degree1 == "BA"] = df$subj1
df$major[df$degree1 != "BA" & df$degree2 == "BA"] = df$subj2

不幸的是，我收到了一条错误消息：

> df$major[df$degree1 == "BA"] = df$subj1
Error in df$major[df$degree1 == "BA"] = df$subj1 : 
  NAs are not allowed in subscripted assignments

我认为这意味着如果赋值至少评估一行的NA，则不能使用向量化赋值。

我觉得我必须遗漏一些基本的东西，但上面的代码似乎是显而易见的事情，我无法想出替代方案。

如果它有助于编写答案，这里的示例数据是使用dput()创建的，格式与上面列出的假数据相同：

structure(list(ID = 1:20, subj1 = structure(c(3L, NA, 1L, 2L, 
2L, 3L, 2L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 3L, 3L, 1L, 2L, 1L
), .Label = c("BUS", "ENG", "SCI"), class = "factor"), degree1 = structure(c(2L, 
NA, 1L, 1L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L), .Label = c("BA", "MN"), class = "factor"), subj2 = structure(c(1L, 
2L, NA, NA, 1L, NA, 3L, 2L, NA, 2L, 2L, 1L, 3L, NA, 2L, 1L, 1L, 
NA, 2L, 2L), .Label = c("BUS", "ENG", "SCI"), class = "factor"), 
    degree2 = structure(c(2L, 2L, NA, NA, 2L, NA, 1L, 2L, NA, 
    2L, 1L, 1L, 2L, NA, 1L, 2L, 2L, NA, 1L, 2L), .Label = c("BA", 
    "MN"), class = "factor")), .Names = c("ID", "subj1", "degree1", 
"subj2", "degree2"), row.names = c(NA, -20L), class = "data.frame")

Answer 1

您的原始转让方法失败至少有两个原因。

1）下标作业df$major[df$degree1 == "BA"] <-存在问题。使用==可以生成NA，这就是提示错误的原因。从?"[<-"：“替换时（即在赋值的lhs上使用索引）NA不选择任何要替换的元素。由于是否应该使用rhs的元素存在歧义，只有当rhs值的长度为1时才允许这样做（因此两种解释会有相同的结果）。“有很多方法可以解决这个问题，但我更喜欢使用which：

df$major[which(df$degree1 == "BA")] <-

不同之处在于==返回TRUE，FALSE和NA，而which则返回对象的索引为TRUE

> df$degree1 == "BA"
 [1] FALSE    NA  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE

> which(df$degree1 == "BA")
 [1]  3  4  5  8  9 10 11 12 13 14 15 16 17 18 19 20

2）当你执行下标任务时，右手边需要合理地放入左手边（这就是我想到的方式）。这可能意味着左右两边长度相等，这就是你的例子所暗示的。因此，您还需要对作业的右侧进行子集化：

df$major[which(df$degree1 == "BA")] <- df$subj1[which(df$degree1 == "BA")]

我希望澄清原始尝试产生错误的原因。

根据@DavidRobinson的建议，使用ifelse是进行此类任务的好方法。我接受了它：

df$major2 <- ifelse(df$degree1 == "BA", df$subj1, ifelse(df$degree2 == "BA",
  df$subj2,NA))

这相当于

df$major[which(df$degree1 == "BA")] <- df$subj1[which(df$degree1 == "BA")]
df$major[which(df$degree1 != "BA" & df$degree2 == "BA")] <- 
  df$subj2[which(df$degree1 != "BA" & df$degree2 == "BA")]

根据嵌套ifelse语句的深度，另一种方法可能更适合您的实际数据。

修改

我打算写原始代码失败的第三个原因（即df$major尚未分配），但它对我有用，而不必这样做。不过，这是我记得的一个问题。你在运行什么版本的R？（对我来说是2.15.0。）如果使用ifelse()方法，则无需执行此步骤。使用[时，您的解决方案很好，但我会选择

df$major <- NA

要获取主题的字符值，而不是因子级别索引，请使用as.character()（因子相当于并调用levels(x)[x]）：

df$major[which(df$degree1 == "BA")] <- as.character(df$subj1)[which(df$degree1 == "BA")] df$major[which(df$degree1 != "BA" & df$degree2 == "BA")] <- as.character(df$subj2)[which(df$degree1 != "BA" & df$degree2 == "BA")]

ifelse()方式相同：

df$major2 <- ifelse(df$degree1 == "BA", as.character(df$subj1), ifelse(df$degree2 == "BA", as.character(df$subj2), NA))

Answer 2

通常，ifelse函数是这些情况的正确选择，例如：

df$major = ifelse((!is.na(df$degree1) & df$degree1 == "BA") & (is.na(df$degree2) | df$degree1 != "BA"), df$subj1, df$subj2)

但是，如果df$degree1和df$degree2都是“BA”，则其准确使用取决于您的操作。

将一个变量条件赋值给另外两个变量之一的值

2 个答案: