在处理流失数据集时,我们通常会发现不平衡的数据集。我的问题是如何决定我们应该在什么基础上重新采样数据。例如:在训练之前拆分数据时,我们在训练中拆分并在阈值(70-30 或 70-25)上进行测试,同样如果我有 62% 的 0 类,38% 的 1 类在这种情况下我们需要重新采样数据?
我们应该在什么阈值上重新采样数据?
数据挖掘
阶级失衡
不平衡数据
2022-03-09 12:22:17
1个回答
首先,在许多学习不平衡的情况下,重采样或人工采样既不是必要的,也不是万能的。其他方法可能会产生好的结果(例如阈值调整、类权重调整等)。
话虽如此,在许多学习不平衡的情况下,重采样确实很有帮助。
但是我们什么时候真的有失衡呢?60-40 分是否不平衡?
这是您问题的核心,除非先尝试其他方法然后重新采样,否则无法完全回答(极端情况除外)。
在许多情况下,不平衡是否确实是一个问题取决于手头的情况,并且没有硬性限制(当然除了上面提到的极端情况)。
所以首先尝试其他方法来调整平衡,然后尝试重新采样,这是我的建议。
另请参阅:训练集中有多少不平衡是一个问题?
其它你可能感兴趣的问题