我对 MCAR、MAR 和 MNAR (NMAR) 数据非常熟悉,但我刚刚遇到了一个新的(对我而言)术语:结构缺失数据 (SMD)。
根据此页面,结构性缺失数据是由于逻辑原因而缺失的数据。他们举了一个例子,他们问人们是否有孩子,然后他们问最小的孩子的年龄。有些人对第一个问题回答“否”,然后将第二个问题留空(因为没有孩子,所以没有年龄)。
但是这里有孩子和最小的年龄之间的关系。由于存在关系,这使得数据为 MAR。
所以,我的问题是,SMD 是 MAR 的一个子集,还是有它不是的原因?
我对 MCAR、MAR 和 MNAR (NMAR) 数据非常熟悉,但我刚刚遇到了一个新的(对我而言)术语:结构缺失数据 (SMD)。
根据此页面,结构性缺失数据是由于逻辑原因而缺失的数据。他们举了一个例子,他们问人们是否有孩子,然后他们问最小的孩子的年龄。有些人对第一个问题回答“否”,然后将第二个问题留空(因为没有孩子,所以没有年龄)。
但是这里有孩子和最小的年龄之间的关系。由于存在关系,这使得数据为 MAR。
所以,我的问题是,SMD 是 MAR 的一个子集,还是有它不是的原因?
不,我认为结构缺失数据是一个单独的类别,在分析中具有不同的处理方法。
它绝对不是随机丢失的。根据定义,它是非随机的,而是在逻辑上与不同变量的特定值相关联。让我们使用链接中示例的轻微修改版本:考虑变量Has_children?
(yes/no) 和age_of_youngest_child
. 如果一个人没有孩子,age_of_youngest_child
则为undefined,而不是省略。的缺失值在age_of_youngest_child
逻辑上与 中的特定值相关联Has_children?
。
请注意,MAR 和 MCAR 经常通过多重插补来解决,而 Structurally Missing Data 则不能。
编辑(h/t 给 kjetil b halvorsen 以获取评论中的建议):
至于如何分析这样的数据,关键是把嵌套变量作为交互项放入模型中,没有主效应。这在您如何处理回归模型中的“嵌套”变量?