我有一个想法以下列方式结合过采样和欠采样:
计算每个班级的平均人数。对于个体数量大于该平均值的类,对该类进行欠采样,以使该类中的个体数量等于平均值。对于个体数量低于该平均值的类,对该类进行过采样,以使该类中的个体数量等于平均值。总体而言,所有类别的个体数量都等于原始平均值。
但是,我看不到任何关于这个想法的文献。这个想法是否存在,它是否有一个名字,以便我可以阅读它?
我有一个想法以下列方式结合过采样和欠采样:
计算每个班级的平均人数。对于个体数量大于该平均值的类,对该类进行欠采样,以使该类中的个体数量等于平均值。对于个体数量低于该平均值的类,对该类进行过采样,以使该类中的个体数量等于平均值。总体而言,所有类别的个体数量都等于原始平均值。
但是,我看不到任何关于这个想法的文献。这个想法是否存在,它是否有一个名字,以便我可以阅读它?
它被称为重采样,以处理不平衡的数据集而闻名。例如,参见https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets以了解实施。
恭喜你有好的直觉!