转换一些变量而不是其他变量是一种好习惯吗?

数据挖掘 机器学习 分类 数据集 数据分析
2022-03-14 03:40:20

我有一个数据集,其中包含编码为数值的分类变量、其他连续且具有许多异常值的变量,以及其他具有相当正态分布的连续变量。

我打算使用 sklearn 预处理方法 .PowerTransformer 来转换所有这些,但也许将它用于那些根本没有正态分布和许多异常值的列可能更有意义?

这是一个分类问题(泰坦尼克号机器学习问题)。

1个回答

关于是否仅缩放特征子集的问题,我会告诉您对所有特征(至少是连续数字特征)进行缩放,因为数据缩放的目标是将这些数据放在相同的“参考比例”上要公平比较。

然而,为您的分类问题使用混合数据类型(连续数值、分类......)看起来更适合尺度不变算法,例如基于决策树的算法。更准确地说,您可以查看XGBoost,作者在此链接中解释说您实际上不必重新缩放数据。

实际上,在我公司最近的一个实际用例中,我们尝试重新缩放数据 VS 不应用 XGB 重新缩放数据,并且使用第二个选项我们获得了更好的结果。