处理由于在研究初期未测量变量而导致的缺失数据

机器算法验证 缺失数据 数据插补
2022-04-08 22:45:41

我最近在以下情况咨询了一位研究人员。

语境:

  • 数据是在四年内收集的,每年约有 50 名参与者(参与者患有特定的诊断临床心理障碍,很难大量获得);参与者仅被测量一次(即,这不是一项纵向研究)
  • 所有参与者都患有相同的疾病
  • 该研究涉及参与者完成一组 10 个心理量表
  • 这 10 个量表测量了症状、理论化的前兆和相关的精神病理学等各种事物:这些测量值往往在之间相互关联。r=.3.7
  • 在第一年,其中一个尺度不包括在内
  • 研究人员希望在整个样本的所有 10 个尺度上运行结构方程建模。因此,存在一个问题,即大约四分之一的样本在一个尺度上缺少数据。

研究人员想知道:

  • 处理这样的缺失数据的好策略是什么?您会建议哪些技巧、应用示例参考或最佳实践建议参考?

我有一些想法,但我很想听听你的建议。

1个回答

我喜欢 Manski 缺失数据的部分识别方法。基本思想是问:给定缺失数据可能具有的所有可能值,估计参数可以采用的值集是多少?该集合可能非常大,在这种情况下,您可以考虑限制缺失数据的分布。Manski 有很多关于这个主题的论文和一本书。这篇简短的论文是一个很好的概述。

部分识别模型的推理可能很复杂,并且是一个活跃的研究领域。这篇评论(未加盖的 pdf)是一个很好的起点。