我有一个调查数据,其中有一些缺失的数据(未回答的问题)。我扔掉了那些错过了整个页面的问题,但这里或那里仍然有一些没有答案的问题。
如何检查这些丢失的数据是否随机丢失。我可以运行任何假设检验吗?
我有一个调查数据,其中有一些缺失的数据(未回答的问题)。我扔掉了那些错过了整个页面的问题,但这里或那里仍然有一些没有答案的问题。
如何检查这些丢失的数据是否随机丢失。我可以运行任何假设检验吗?
这是测试随机缺失假设的一种方法。
假设关于参与者收入的问题有一些缺失的条目。运行逻辑回归,收入作为您的响应,其他一切作为预测因素。如果缺少,您的响应将为 1,否则为 0。预测变量的 p 值应该让您了解这个 MAR 假设是否有用。
对所有其他缺少数据的列执行相同的操作。
编辑:这个问题背后有大量文献。我在这里冒着可能误导简化的风险。见第 25 章,
Gelman, A. 和 Hill, J. (2006)。使用回归和多级/分层模型进行数据分析。剑桥大学出版社。
一点术语:
horaceT 给出的答案显示了一种测试您的数据是否随机丢失的方法,但这里有一个强有力的假设:您必须假设您的数据不是随机丢失的(对不起,双重否定!)。换句话说,您的原假设是“完全随机缺失”,而备择假设是“随机缺失”。
原因很清楚:您无法测试缺失是否取决于未观察到的变量,因为您没有观察/测量它们。这种微妙之处很重要,因为它会影响您解释结果的方式。