减少对单个变量的多个答案

数据挖掘 数据集 降维
2021-09-26 15:43:06

数据问卷在这里

第一个问题对同一个问题需要多次输入,我想将其减少为单个变量。我该怎么做?

干净的数据可在此处获得。注意:列 CompuPlat 有缺失值。

数据集的一部分

CMFam CMHobb CMNone CMOther CMPol CMProf CMRel 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 1 1 Community Membership_Family Community Membership_Hobbies Community Membership_None Community Membership_Other Community Membership_Political Community Membership_Professional Community Membership_Religious Community Membership_Support 我想把它们都放在一个可变的 CM 中

2个回答

变量代表第一个问题的答案。

一种直接的方法是允许此变量中的所有可能类别。例如,如果此答案中有 5 个选项,则必须将其视为具有 2^5 = 32 个类别的分类变量。

但是,类别的数量随着为答案提供的选项(复选框)的数量而呈指数增长。在这种情况下,最好将类别的数量限制为例如 5 个。这可以通过将前 4 个选项/选项(按计数)保持不变并将所有其他选项视为“其他”来完成。

如果我正确理解了您的问题,一个简单的解决方案是将这些位连接在一起并制作一个 7 位二进制序列,然后将其转换为整数。因此,对于问题中引用的示例数据集,您将得到:

CM 16 0 98 8 6 67