不平衡特征对预测的影响

数据挖掘 Python 回归 xgboost 不平衡数据
2022-02-27 05:41:49

我想使用 XGB 回归。数据框在概念上类似于此表:


index    feature 1   feature 2   feature 3  encoded_1  encoded_2  encoded_3   y
0          0.213      0.542       0.125       0             0        1        0.432
1          0.495      0.114       0.234       1             0        0        0.775
2          0.521      0.323       0.887       1             0        0        0.691

我的问题是,对编码特征的不平衡观察有什么影响?例如,我是否有更多的“编码 1”与“编码 2”或“编码 3”的功能。为了清楚起见,我想使用回归而不是分类。

如果有任何材料可以阅读,请告诉我。

2个回答

没关系,只是数据是什么。

我假设您正在考虑与“不平衡数据集”相关的问题,但该术语仅指目标变量值的不平衡(它更常用于分类,但从技术上讲,它也与回归相关)。

特征不需要以任何方式进行平衡,它们只需要成为目标变量的良好指标。

正如 Erwan 所说,不平衡数据集问题是关于目标变量而不是特征。

但是,如果您的模型更倾向于回归目标的一部分,您可以对目标变量的分布进行研究,然后根据分布执行变换(例如平方根或 exp),以获得更均匀的输出.

此外,由于特征不平衡而不是特征的代表性,可能会错误地认为欠拟合。您可以添加新功能,甚至是当前功能的转换版本,以捕获数据中的非线性。