我正在使用最佳匹配算法在TraMineR中进行序列分析。不幸的是,由于右删失数据,我的序列长度不等。我的序列的最小长度是5,最大长度11.长度的变化对我感兴趣的序列之间的差异没有意义。因此,我想保持不等长度对序列之间总体差异的影响尽可能小。
我在Stovel和Bolan(2004(1))中读到了这个问题的可能解决方案,他们使用变量indel cost ,具体取决于序列长度是否相等。因此,对于相等长度的序列,它们使用固定的indel成本,并且对于不等长度,它们使用降低的成本,“大约是固定成本的四分之一”。
我的问题是: 一般来说,如何在TraMineR中编码缺失?作为空白元素还是应该在字母表中包含缺失状态? 在Stovel和Bolan引入的TraMineR中是否存在应用可变indel成本的选项?如果是的话,怎么办呢?
(1)Stovel,Katherine和Marc Bolan。 “住宅轨迹:利用最优对齐方式揭示住宅流动结构”。社会学方法&研究32(4):559-598。
答案 0 :(得分:4)
目前,不可能使用可变的indel成本(取决于序列是否具有相同的长度)。我对这种方法持怀疑态度,因为,如果我理解得很清楚,距离测量的定义会根据所涉及的顺序而改变(因为indel成本会发生变化)。因此,不尊重三角不等式。从概念的角度来看,我认为我们应该始终使用相同的比较标准,从而使用相同的距离定义。