合并部分重复案例而不会丢失数据

时间:2017-06-08 07:22:14

标签: database spss

关于准备研究数据集,我有一个问题。

我在SPSS 20中有一个长格式的数据集,因为我正在研究多年的个人层面。然而,一些个体被添加到我的数据集两次,因为与这些个体匹配的一些变量存在差异(5000个个体,每个个体有25个变量)。我想合并这些副本,以便我可以随着时间的推移运行我的分析。对于那些重复项之间不同的变量,我希望在合并所有重复项时spss生成其他变量。

这是否可能,如果是,如何?

2 个答案:

答案 0 :(得分:0)

我建议按照以下步骤操作

  1. 创建辅助变量“PrimaryLast”,其中包含过程数据 - >通过...识别重复案例,将“匹配案例定义”设置为您的案例ID

  2. 使用Data->创建2个新的辅助数据集,选择条件为“PrimaryLast = 0”和“PrimaryLast = 1”的案例,并选择“将所选案例复制到新数据集”

  3. 将两个辅助数据集与过程数据合并 - >合并文件 - >添加变量,在左框中重命名重复的变量名称并在右侧框中移动它们并选择您的案例ID作为键

  4. 不要忘记控制是否进行了“全外连接”,如果您丢失了非重复案例并且数据集中只有重复案例,则只需按步骤2中的不同顺序合并数据集3。

答案 1 :(得分:0)

试试这个:

sort cases by caseID otherVar.
compute ind=1.
if $casenum>1 and caseID=lag(caseID) ind=lag(ind)+1.
casestovars /id=caseID /index=ind.

如果caseID重复多次,则在重组后,该情况只有一行,而所有变量都将用索引重复。 如果caseID的顺序重复,则将sort命令中的otherVar替换为相应的变量(例如date)。这样,您的新变量也将相应地编入索引。