我正在构建一个逻辑回归,我的两个变量是分类的,每个变量都有三个级别。(假设一个变量是男性、女性或未知,另一个是单身、已婚或未知。)
我应该制作多少个虚拟变量?我是总共做 4 个(每个分类变量 2 个,例如男性变量、女性变量、单个变量和已婚变量)还是总共 5 个(2 个分类变量,3 个其他)?
我知道大多数教科书都说,当您对具有 k 个级别的分类变量进行虚拟编码时,您应该只制作 k-1 个虚拟变量,否则您将与常数共线性。但是,当您对多个分类变量进行虚拟编码时,您会怎么做?通过共线性参数,听起来我只会为其中一个分类变量制作 k-1 个虚拟变量,而对于其余的分类变量,我会构建所有 k 个虚拟变量。