如何处理目标偏斜且只有少数高值的回归问题?
数据挖掘
机器学习
回归
决策树
交叉验证
2022-02-13 14:58:08
1个回答
您可以通过适当的变换生成对称分布:您的分布主要是右偏的,因此需要 log10 变换。
您还可以使用自动分箱方法并将其与尖峰的虚拟变量结合使用。
如果您随后执行特征选择,学习者将自动选择最重要的特征。像 XGBoost 这样的学习器会自动处理多重共线性。
其它你可能感兴趣的问题

