我想执行过采样和欠采样的组合,以平衡我的数据集,将大约 4000 名客户分为两组,其中一组的比例约为 15%。
我研究了 SMOTE(http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE)和 ROSE(http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf),但两者都使用现有的观察结果和例如 kNN 创建新的合成样本。
但是,由于与客户相关的许多属性都是分类的,我认为这不是正确的方法。例如,我的很多变量,例如 Region_A 和 Region_B 是互斥的,但是使用 kNN 新的观察结果可能会同时放在 Region_A 和 Region_B 中。你同意这是一个问题吗?
在那种情况下 - 如何通过简单地复制现有观察结果在 R 中执行过采样?或者这是错误的方法吗?