我正在研究具有连续因变量(房屋售价)的回归问题。我的特征中有几个分类特征,我正在通过Pandas get_dummies函数将它们转换为“一个热编码”的虚拟变量。
我的问题是,为了避免多重共线性的陷阱,必须从模型中排除每个分类变量的一个级别。Pandas在函数中提供这个drop_first参数get_dummies,我可以选择将第一级排除在一个热编码中。然而,这让我觉得有些武断。是否有策略确保排除水平不会影响我的回归模型的准确性?如何决定排除哪个级别?
我正在研究具有连续因变量(房屋售价)的回归问题。我的特征中有几个分类特征,我正在通过Pandas get_dummies函数将它们转换为“一个热编码”的虚拟变量。
我的问题是,为了避免多重共线性的陷阱,必须从模型中排除每个分类变量的一个级别。Pandas在函数中提供这个drop_first参数get_dummies,我可以选择将第一级排除在一个热编码中。然而,这让我觉得有些武断。是否有策略确保排除水平不会影响我的回归模型的准确性?如何决定排除哪个级别?