在机器学习的上下文中,假设您有一个问题,即真实群体中的类不平衡——例如,A 类出现 80% 的时间,B 类出现 20% 的时间。
在这种情况下,让给定的 ML 算法依赖于具有相同 80/20 类比率的数据还是具有平衡 (50/50) 比率的数据通常更好?a) 关于训练数据 b) 关于测试数据
一个后续问题:如果 (a) 或 (b) 的答案恰好符合平衡的 50/50 比率,那么即使在人们可以访问的数据恰好是的实际环境中,这种偏好通常是否仍然存在80/20 的比例?换句话说,使用平衡比率来训练和/或测试的好处是否会超过执行该比率的成本(例如,通过丢弃多数类的实例或生成少数类的新合成样本)?