我们可以使用 SMOTE 指定生成的数据数量(少数类)吗?

数据挖掘 机器学习 Python 阶级失衡 不平衡学习
2021-09-23 18:07:58

我正在尝试使用 SMOTE不平衡_learn 改进不平衡数据集信用卡欺诈的分类。但是,在这种情况下,它会生成 50% 的数据,我们可以为要生成的数据指定一个具体的数字吗?我想随着生成数据的增加来跟踪分类器的性能。任何帮助将不胜感激。

2个回答

SMOTE 是一种生成尽可能多的少数样本的算法。因此,您可以根据需要生成任意数量的样本。

一些包,如 python 中的包(不平衡学习)允许您设置平衡比率(在 50% 少数和 50% 多数的情况下为 1)。

如果你没有使用没有这个比率参数的包,你可以使用新生成的样本的索引(如果不可用,将输入与输出进行比较,只使用增量)来找到新样本,然后随机选择数量新的所需样品仅从它们中取出。