我对虚拟变量陷阱的多元回归感到困惑,到目前为止,我已经看过解释虚拟变量陷阱和多重共线性的教程,但我无法完全理解它。
虚拟变量陷阱的清晰解释
机器算法验证
回归
数据集
分类编码
虚拟变量陷阱
2022-04-08 09:38:35
1个回答
假设您有一个二进制变量,例如性。您创建两个虚拟变量以在模型中反映这一点。假设你有六个人. 您的虚拟变量如下所示:
但现在尽一切可能所以你有一个完美的多重共线性的情况。该模型不会区分由高或低反之亦然。
避免这个陷阱的方法是摆脱其中一个变量。但这意味着将其中一个组作为“参考”,这是一种任意选择。
更重要的是,当同时考虑多个因素时,由于您的个体在组中的分布方式,某些虚拟变量可能会达到完美的多重共线性。
想象一下,例如,你也有像“高于 170 厘米/低于 170 厘米”这样的数据,你得到(这并不罕见)您将面临与我们在考虑时遇到的类似问题和