我知道具有 k 个级别的分类变量应该在虚拟编码中使用 k-1 个变量进行编码(对于多值分类变量也是如此)。我想知道对于不同的回归方法,主要是线性回归、惩罚线性回归(Lasso、Ridge、ElasticNet)、基于树的(随机森林),单热编码(即使用 k 变量)比虚拟编码有多少问题,梯度提升机)。
我知道在线性回归中会出现多重共线性问题(即使在实践中我已经使用 OHE 拟合线性回归而没有任何问题)。
但是,是否需要在所有这些中使用虚拟编码?如果使用 one-hot 编码,结果会有多错误?
我的重点是在具有多个(高基数)分类变量的回归模型中进行预测,因此我对置信区间不感兴趣。