数据挖掘 - 不平衡特征对预测的影响 - 吾爱随笔录

不平衡特征对预测的影响

数据挖掘 Python 回归 xgboost 不平衡数据

2022-02-27 05:41:49

我想使用 XGB 回归。数据框在概念上类似于此表：


index    feature 1   feature 2   feature 3  encoded_1  encoded_2  encoded_3   y
0          0.213      0.542       0.125       0             0        1        0.432
1          0.495      0.114       0.234       1             0        0        0.775
2          0.521      0.323       0.887       1             0        0        0.691

我的问题是，对编码特征的不平衡观察有什么影响？例如，我是否有更多的“编码 1”与“编码 2”或“编码 3”的功能。为了清楚起见，我想使用回归而不是分类。

如果有任何材料可以阅读，请告诉我。

2个回答

没关系，只是数据是什么。

我假设您正在考虑与“不平衡数据集”相关的问题，但该术语仅指目标变量值的不平衡（它更常用于分类，但从技术上讲，它也与回归相关）。

特征不需要以任何方式进行平衡，它们只需要成为目标变量的良好指标。

正如 Erwan 所说，不平衡数据集问题是关于目标变量而不是特征。

但是，如果您的模型更倾向于回归目标的一部分，您可以对目标变量的分布进行研究，然后根据分布执行变换（例如平方根或 exp），以获得更均匀的输出.

此外，由于特征不平衡而不是特征的代表性，可能会错误地认为欠拟合。您可以添加新功能，甚至是当前功能的转换版本，以捕获数据中的非线性。

其它你可能感兴趣的问题

上一篇哪些机器学习算法更适合二分类？下一篇如何估算丢失的文本数据？