我刚刚进行了一份问卷,其中有一些问题是多答案和多选的。也就是说,受访者可以在适用于他们的选项中勾选尽可能多的选项——因此他们可以不选择任何项目,一、二或七!对于那些发现选项不适用于他们的人,还有一个“其他”字段。
我的问题是:我应该如何存储这些数据(在 R 语言中)以便我可以最轻松地分析它?我想做的那种分析通常相当简单——查看问题中不同回答的百分比,并且不会涉及太多非常深入的统计数据(我真的没有足够大的样本量来做这个)。
我可以想到多种存储数据的方法,如下所列,但我不确定哪种方法最有效且最容易处理。其他人之前一定已经处理过这些问题,并且发现了如何最好地做到这一点——那么你怎么看?
我可能的想法包括:
- 为每个问题使用数据框的单列,其中包含某种逗号分隔的列表 - 易于输入数据,但我怀疑它很难分析
- 每个问题有多个列 - 最多我认为任何人都会勾选的答案的最大数量(我怀疑是 5-6 - 但如果我得到更多呢?)并将答案的名称放在这些列中的每一列中
- 每个可能答案的列,并在列中使用布尔值来表示已勾选的内容。这可能听起来更好,但我不确定我将如何分析它。
人们怎么想?