这种抽样形式有名称吗?

数据挖掘 采样
2022-02-22 19:19:02

我有一个想法以下列方式结合过采样和欠采样:

计算每个班级的平均人数。对于个体数量大于该平均值的类,对该类进行欠采样,以使该类中的个体数量等于平均值​​。对于个体数量低于该平均值的类,对该类进行过采样,以使该类中的个体数量等于平均值​​。总体而言,所有类别的个体数量都等于原始平均值。

但是,我看不到任何关于这个想法的文献。这个想法是否存在,它是否有一个名字,以便我可以阅读它?

1个回答

它被称为重采样,以处理不平衡的数据集而闻名。例如,参见https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets以了解实施。

恭喜你有好的直觉!