虚拟变量陷阱的清晰解释

机器算法验证 回归 数据集 分类编码 虚拟变量陷阱
2022-04-08 09:38:35

我对虚拟变量陷阱的多元回归感到困惑,到目前为止,我已经看过解释虚拟变量陷阱和多重共线性的教程,但我无法完全理解它。

1个回答

假设您有一个二进制变量,例如性。您创建两个虚拟变量以在模型中反映这一点。假设你有六个人(M,F,F,M,M,F). 您的虚拟变量如下所示:

  • X1=(0,1,1,0,0,1)
  • X2=(1,0,0,1,1,0)

但现在Xi1+Xi2=1尽一切可能i所以你有一个完美的多重共线性的情况。该模型不会区分由高X1或低X2反之亦然。

避免这个陷阱的方法是摆脱其中一个变量。但这意味着将其中一个组作为“参考”,这是一种任意选择。

更重要的是,当同时考虑多个因素时,由于您的个体在组中的分布方式,某些虚拟变量可能会达到完美的多重共线性。

想象一下,例如,你也有像“高于 170 厘米/低于 170 厘米”这样的数据,你得到(T,S,S,T,T,S)(这并不罕见)您将面临与我们在考虑时遇到的类似问题X1X2