决定从分类变量的一个热编码中排除哪个特征级别的策略是什么?

数据挖掘 预测建模 回归 特征选择
2022-02-14 09:23:28

我正在研究具有连续因变量(房屋售价)的回归问题。我的特征中有几个分类特征,我正在通过Pandas get_dummies函数将它们转换为“一个热编码”的虚拟变量。

我的问题是,为了避免多重共线性的陷阱,必须从模型中排除每个分类变量的一个级别。Pandas在函数中提供这个drop_first参数get_dummies,我可以选择将第一级排除在一个热编码中。然而,这让我觉得有些武断。是否有策略确保排除水平不会影响我的回归模型的准确性?如何决定排除哪个级别?

0个回答
没有发现任何回复~