如何存储(和分析)多答案多选问卷数据

机器算法验证 r 民意调查
2022-03-26 17:35:34

我刚刚进行了一份问卷,其中有一些问题是多答案和多选的。也就是说,受访者可以在适用于他们的选项中勾选尽可能多的选项——因此他们可以不选择任何项目,一、二或七!对于那些发现选项不适用于他们的人,还有一个“其他”字段。

我的问题是:我应该如何存储这些数据(在 R 语言中)以便我可以最轻松地分析它?我想做的那种分析通常相当简单——查看问题中不同回答的百分比,并且不会涉及太多非常深入的统计数据(我真的没有足够大的样本量来做这个)。

我可以想到多种存储数据的方法,如下所列,但我不确定哪种方法最有效且最容易处理。其他人之前一定已经处理过这些问题,并且发现了如何最好地做到这一点——那么你怎么看?

我可能的想法包括:

  • 为每个问题使用数据框的单列,其中包含某种逗号分隔的列表 - 易于输入数据,但我怀疑它很难分析
  • 每个问题有多个列 - 最多我认为任何人都会勾选的答案的最大数量(我怀疑是 5-6 - 但如果我得到更多呢?)并将答案的名称放在这些列中的每一列中
  • 每个可能答案的列,并在列中使用布尔值来表示已勾选的内容。这可能听起来更好,但我不确定我将如何分析它。

人们怎么想?

2个回答

最后一个答案是最适合您情况的答案。基本方法是每个复选框都应存储为 0(未选中)或 1(选中)。如果您在问卷中有逻辑,因此有些人不会被问到问题,那么您可以有 0(有问题,但未检查)、1(已检查)和缺失/空(未收到问题)。

分析可以非常简单 - 将列中的值相加(即计算所有 1)并除以响应数(计算所有 1 和 0)。这是选中该框的百分比以及您可以从哪里开始。

在某些情况下,当您有非常广泛的可能答案并且每个受访者在该范围的一小部分上都有响应时,将每条记录存储为受访者 ID、响应类型和响应的价值。这可以帮助您避免使用包含数百或数千列的表,这对于存储目的来说可能很笨拙。

你的最后一个选项对我来说是最好的。分析,只是对数据框的该列进行过滤。