数据挖掘 - 对于不平衡类，过采样比改变阈值有什么优势？ - 吾爱随笔录

假设我有两个类的不平衡数据集，并且我正在使用随机森林进行预测。随机森林将偏向多数类，这将导致我感兴趣的少数类预测的召回率低和精度高，这可能是不可取的。

一种方法是在 y 轴上绘制召回率、精度和 f1 分数，在轴上绘制阈值，并使用该图来选择适当的阈值。

另一种方法是对少数类使用过采样，比如 SMOTE。

我的问题是：过采样方法有什么优势？

到目前为止，我只看到缺点：

1）我们必须非常小心，我们的少数类在一个集群中，否则 SMOTE 会将点放在集群之间，这根本不是我们想要的。为了避免这种情况，我们应该为不同的集群创建不同的标签，这要复杂得多。

2) 我们正在创建额外的数据，这会增加运行时间和内存使用量。

3）即使我们做了过采样，我们仍然可能没有理想的召回率、阈值平衡，仍然需要调整阈值感觉是多余的。

我知道过采样是一种常用的技术，我错过了什么？