我想在多数类中添加更多样本(而不是在使用过采样技术的少数类中),如何做到这一点?
假设我有一个汽车数据集,共有 100 个样本,类别分布 A=40 个样本,B=25 个样本,C=20 个样本,D=15 个样本,现在我的问题是我想在 A 类中添加样本,所以即 A= 200, ...... 并且剩下的类保持不变
我想在多数类中添加更多样本(而不是在使用过采样技术的少数类中),如何做到这一点?
假设我有一个汽车数据集,共有 100 个样本,类别分布 A=40 个样本,B=25 个样本,C=20 个样本,D=15 个样本,现在我的问题是我想在 A 类中添加样本,所以即 A= 200, ...... 并且剩下的类保持不变
任何过采样技术都应该可以正常工作。
例如,SMOTE是一种为特定类别生成样本的技术。它的工作原理是选择一个类,找到最接近的样本并在它们之间的随机位置生成一个。该算法没有明确要求这些样本来自少数类。从理论上讲,您也可以将此原则应用于多数类。
你可以从这个 jupyter notebook中看到更多关于过采样技术(包括 SMOTE)的细节,它手动实现了背后的逻辑。