我正在尝试从 UCI 数据库存储库中解决一个分类问题。不幸的是(或幸运的是),我注意到我的数据集是不平衡的。根据学生达到的最终分数,我将数据分为 5 个类别,如下所示:
- 如果学生获得 0 到 7 的分数 => 1 级 [FAIL(E)]
- 如果学生获得 8 到 9 的分数 => 2 级 [SUFFICIENT(D)]
- 如果学生获得 10 到 11 的分数 => 3 级 [GOOD(C)]
- 如果学生获得 12 到 15 的分数 => 4 级 [NOTABLE(B)]
- 如果学生获得 16 到 19 的分数 => 5 级 [OUTSTANDING(A)]
我的问题是,正如我所说,数据是不平衡的,所以我想平衡它。
我考虑过应用某种欠采样方法,但我的数据集只有 649 个实例,所以我认为删除其中的一些不是最好的主意。然后我考虑做一些过采样,以复制一些少数类的例子,然后让类平衡,但我仍然不确定这是否可行。
如果您能帮我解决这个问题,我将不胜感激。这是我第一次面临数据不平衡的真正问题。