数据挖掘 - 决定从分类变量的一个热编码中排除哪个特征级别的策略是什么？ - 吾爱随笔录

我正在研究具有连续因变量（房屋售价）的回归问题。我的特征中有几个分类特征，我正在通过Pandas get_dummies函数将它们转换为“一个热编码”的虚拟变量。

我的问题是，为了避免多重共线性的陷阱，必须从模型中排除每个分类变量的一个级别。Pandas在函数中提供这个drop_first参数get_dummies，我可以选择将第一级排除在一个热编码中。然而，这让我觉得有些武断。是否有策略确保排除水平不会影响我的回归模型的准确性？如何决定排除哪个级别？