ROSE 和 SMOTE 过采样方法

机器算法验证 不平衡类 过采样 打击
2022-03-06 04:39:20

有人可以简要解释一下这两种重采​​样方法之间的区别:ROSE 和 SMOTE 吗?

1个回答

ROSE 使用平滑引导从少数类周围的特征空间邻域中抽取人工样本。

SMOTE 通过选择位于将稀有观测值连接到特征空间中其最近邻居之一的线上的点来绘制人工样本。

资料来源:使用不平衡数据训练和评估分类规则

我的经验:我使用这两种技术来创建平衡数据,并发现 SMOTE(来自 R's DMwR-package)可以产生更好的结果。在我看来,原因是 SMOTE 没有像 ROSE 那样创造出那么多“不切实际”的价值观。ROSE 给了我完全不可能的值(负面积大小或海拔)。您可以指定 ROSE 从中抽取样本的邻域,并在一定程度上缓解这些问题。但是 SMOTE 仍然产生了更好的训练数据来预测我的原始(不平衡)数据。不过,这两种技术都优于过采样和欠采样。