如何清理不一致的调查数据?

机器算法验证 数据集 民意调查 数据预处理
2022-03-30 07:22:31

我有一些不一致的调查响应数据,我不确定处理它们的最佳方法是什么。这是不一致的性质:

  1. 您是否曾经发生过您认为可能是由特定餐厅的食物引起的食物中毒事件?a) 是 b) 否
  2. 这些事件中的任何一个是否阻止您再次在那家餐厅吃饭?a) 不适用,从未发生过食物中毒事件 b) 是 c) 否
  3. 在这些事件之后,您是否在 24 小时后恢复正常状态?a) 不适用,从未发生过食物中毒事件 b) 是 c) 否

我相信调查设计者的意图是任何对 1) 回答“否”的人都应该对 2) 和 3) 回答“不适用”,但事实并非如此。一大群受访者对 1) 选择“否”,对 2) 或 3) 中的至少一个选择“否”。

处理这种不一致的最佳方法是什么?

哪里有一些好的参考资料(书籍、论文、网站等)来查看此类问题的讨论和解决方案,以及一般的数据清理?

1个回答

调查的数据清理比分析和报告撰写需要更长的时间,因此您并不孤单。:)

通常在调查中,我们会为受访者提出问题。因此,例如,在计算机辅助电话采访(或在线采访,使用笔记本电脑的面对面采访)中,调查程序员对调查进行编码,以便在受访者以特定方式回答时跳过不应出现的问题。

无论出于何种原因,该调查似乎缺少问题跳过模式。如果应该实现跳过模式,那么是的,您可以事后为问题 2 和 3 引入它,并将“不应该回答”的响应更改为系统缺失(或您正在使用的其他缺失代码)。

那里有很多调查书籍,适合您的书籍实际上取决于您的特定需求,因为它们都有各种优点和缺点。查看 David De Vaus 的一系列书籍,例如 Analyzing Social Science Data - 这看起来特别适合您的情况。David De Vaus 还撰写了许多其他社会科学调查书籍,它们都被推荐了。Dillman 等人的书也向我强烈推荐,尽管我自己没有使用过。

我还建议在进行调查之前先进行认知测试,然后对问卷进行现场测试。这种类型的测试旨在显示问题排序问题,同时也显示受访者如何解释问题(这有时与问卷设计者的意图不同!)。虽然此过程对于您当前的调查来说为时已晚,但您可以在未来的调查中实施它。

祝愿您的调查分析。