查找重复的案例,字符串变量,SPSS

时间:2017-06-16 08:54:59

标签: spss

作为SPSS上的小说,我正在努力寻找基于包含大约33,000个案例的数据集中的字符串变量的重复案例。

我有一个名为“nr”的变量,它应该是每种情况的唯一ID。然而,事实证明,某些情况下输入的“nr”可能有两个不同的值,唯一的区别是最后一个字符。导致案例显示为两个单独的行。

var“nr”的结构如下:XX-XXXXXXX-X或X-XXXXXXX-X,即2-7-1个字符或1-7-1个字符。

除了最后一个字符外,我想理清所有“nr”等于另一个案例的案例。

为了说明,使用成功的语法,我希望能够从整个数据集中对这些案例进行排序:

20-4026988-2
20-4026988-3

5-4026992-5
5-4026992-8

20-4027281-2
20-4027281-3

任何人都知道如何为此制作语法?对任何输入都会非常感激!

2 个答案:

答案 0 :(得分:0)

我建议创建一个没有该最后一个字符的新变量,然后查找双打:

* first creating some sample data to play with.    
data list list/ID (a15).
begin data.
20-4026988-2
12-2345678-7
20-4026988-3
5-4026992-5
5-4026992-8
12-1234567-1
20-4027281-2
6-1234567-1
20-4027281-3
end data.

* now creating the new variable and counting the occurrences of each shortened ID.
string ShortID (a15).
compute ShortID=char.substr(ID,1,char.rindex(ID,"-")).
* also possible: compute ShortID=char.substr(ID,1,char.length(rtrim(ID))-1).
aggregate out=* mode=add /break=ShortID/occurrences=n.

* at this point you can filter based on the number or `occurrences` or sort them.
sort cases by occurrences (d) ShortID.

答案 1 :(得分:0)

删除最后一个字符后,您可以使用数据>识别重复案例以查找重复项。它作为一些有用的选择。