您将如何处理调查数据中的“不知道”和“缺失数据”?

机器算法验证 多元分析 缺失数据 民意调查
2022-03-06 16:57:39

作为标题,我正在考虑将两者合并为“缺失数据”,即在 R 中将其命名为 NA。因为我认为这没有多大意义(甚至没有任何意义),所以将“不要知道”行出来并将信息与其他行进行比较。

我可以这样做吗?

2个回答

好吧,您还应该考虑到“不知道”至少是某种答案,而不回答是纯粹的缺失值。现在,我们经常在调查中允许“不知道”的回答,以避免强迫人们无论如何都提供回答(这可能会使结果产生偏差)。例如,在全国健康和营养检查调查中,它们的编码不同,但随后从分析中被丢弃。

您可以尝试两种方式分析数据:(1)将“不知道响应”视为特定响应类别,并使用某种多元数据分析处理所有响应集(例如,多重对应分析或混合数据的多因素分析,请参阅FactoMineR),以及(2)如果它没有对项目分布带来任何扭曲的证据,只需将其与缺失值合并即可。

对于(2),我还建议您检查“不知道”和 MV 是否至少随机缺失(MAR),或者它们不是特定于一个受访者群体(例如男性/女性,年龄阶层, SES 等)。

这取决于您的调查中问题/回答的类型。如果他们喜欢“我喜欢”、“我不喜欢”、“不知道”,chl 会部分回答您的问题。

第一个解决方案是chl的答案。您必须检查“不知道”是否没有隐藏任何内容。您必须分别分析这些值,以查看它是否突出了特定的受访者概况。

我不是要估算,而是...“法国”软件为 MCA 做这件事,...经常考虑 MAR 假设。它假设这些答案是随机分布的(您随机选择另一种响应方式)。

您还可以使用更复杂的方法:如果“喜欢”为 30%,“不喜欢”为 70%,您选择分布在 (0,1) 上的统一随机数,如果您的数字等于或低于 0.3,请选择“喜欢” . 如果您选择介于 0.3 和 1 之间的数字,则选择“不喜欢”。

一种更现代的方法是乘法插补(参见 SAS 中的 MI PROC 和 R 中的鼠标包)。插补非常有效......但它无法重新创建非典型配置文件......

如果您从事教育测试或需要计算分数,请告诉我,我将完成有关分数估计的答案。

参考:

调查中无响应的多重插补,Rubin (1987)。威利。老鼠包:http ://cran.r-project.org/web/packages/mice/index.html 调查方法,Robert M. Groves,Floyd J. Fowler & al。威利。