对于不平衡类,过采样比改变阈值有什么优势?

数据挖掘 机器学习 阶级失衡 打击
2022-02-20 16:17:28

假设我有两个类的不平衡数据集,并且我正在使用随机森林进行预测。随机森林将偏向多数类,这将导致我感兴趣的少数类预测的召回率低和精度高,这可能是不可取的。

一种方法是在 y 轴上绘制召回率、精度和 f1 分数,在轴上绘制阈值,并使用该图来选择适当的阈值。

另一种方法是对少数类使用过采样,比如 SMOTE。

我的问题是:过采样方法有什么优势?

到目前为止,我只看到缺点:

1)我们必须非常小心,我们的少数类在一个集群中,否则 SMOTE 会将点放在集群之间,这根本不是我们想要的。为了避免这种情况,我们应该为不同的集群创建不同的标签,这要复杂得多。

2) 我们正在创建额外的数据,这会增加运行时间和内存使用量。

3)即使我们做了过采样,我们仍然可能没有理想的召回率、阈值平衡,仍然需要调整阈值感觉是多余的。

我知道过采样是一种常用的技术,我错过了什么?

1个回答

由于您上面列出的缺点,我建议不要使用过采样。重要的一点是它会增加噪音,可能包含有偏差的数据,并且可能存在需要另一个预处理步骤的异常值。我建议对多数类进行欠采样。但是对于您的答案,如果您选择过采样,该链接将进一步帮助您