我有一个不平衡的数据集。我正在寻找样本不足。尽管过采样过程花费的时间更少,但模型训练需要很多时间。我看过不平衡学习网站。有几种欠采样方法。我正在研究尝试对具有尽可能多完整信息的类进行欠采样的方法。我尝试.ClusterCentroids()了一些方法,发现平衡类需要很长时间。
我尝试了网站中提到的其他方法。但是,即使具有sampling_strategy相等的值,例如:sampling_strategy={0: 2000, 1: 2000, 2: 2000}生成的数据集不平衡。比如 in.CondensedNearestNeighbour()和.AllKNN()方法。谁能帮助我使用这些方法创建一个类平衡数据集。
谢谢
迈克尔