我们有一个关于如何处理序列中缺失值/间隙的问题。我们喜欢为最优匹配过程建立自己的替代成本矩阵。据我们所知,TraMiner 允许创建自己的成本矩阵——但前提是没有缺失值。如果存在缺失值,则默认矩阵会为所有状态“收费”2 个单位,而不管处理“真实”状态或缺失状态(参见TraMiner 用户指南,第 6.5.2 和 9.4.5 章)。
背景:目前,我们评估了一个职业发展长达 40 年的生命历程数据集。TraMiner 开发团队的 Matthias Studer 好心地给了我们尝试 Brendan Halpin 的多重插补方法的建议(参见他的论文)。正如 Halpin 先生有充分理由指出的那样,将缺失值设置为特殊类别并分配自己的替代成本会产生偏差倾向(正如 TraMiner 用户指南通过指出此操作的问题所建议的那样,参见同上。第 9.4.5 章)。因此多重插补是有意义的。不幸的是,我们必须处理比 Brendan Halpin 大得多的差距,因此最好尝试并比较替换和插补方法。Halpin 先生在检查了我们的数据后证实了这一点。
到目前为止,使用默认的 2-units-for-all-substitution 替代方法,聚类结果显示频率分布/状态分布图正在聚类,倾向于“缺失状态”的模式。这意味着集群类型遵循“缺失状态”模式,这不是一个好的结果。因此,我们喜欢尝试对所有状态(包括缺失状态)进行其他替代成本替代。但是怎么做呢?