编码多个分类变量时如何选择虚拟变量的数量?

机器算法验证 物流 分类数据 分类编码
2022-04-15 13:09:03

我正在构建一个逻辑回归,我的两个变量是分类的,每个变量都有三个级别。(假设一个变量是男性、女性或未知,另一个是单身、已婚或未知。)

我应该制作多少个虚拟变量?我是总共做 4 个(每个分类变量 2 个,例如男性变量、女性变量、单个变量和已婚变量)还是总共 5 个(2 个分类变量,3 个其他)?

我知道大多数教科书都说,当您对具有 k 个级别的分类变量进行虚拟编码时,您应该只制作 k-1 个虚拟变量,否则您将与常数共线性。但是,当您对多个分类变量进行虚拟编码时,您会怎么做?通过共线性参数,听起来我只会为其中一个分类变量制作 k-1 个虚拟变量,而对于其余的分类变量,我会构建所有 k 个虚拟变量。

2个回答

您将为每个分类变量创建 k-1 个虚拟变量。教科书的论点成立;如果您要为任何变量制作 k 个虚拟变量,那么您将具有共线性。您可以将 k-1 虚拟变量视为其对应级别的效果与虚拟变量被忽略的级别之间的对比。

在构建逻辑回归时,您必须记住,从属值必须在正在处理的案例中准确地假设两个值。在您的问题中,您没有提供有关因变量的足够信息,或者您是否使用二元或多逻辑回归。不过,如果您使用 Gender 作为因变量,那么它必须准确地假设代表男性和女性的两个值,并且不能像您指出的那样包括未知