在最近一个广受好评的问题中,蒂姆问什么时候不平衡数据真的是机器学习中的一个问题?问题的前提是有很多机器学习文献讨论类平衡和不平衡类的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(我在这里包括概率模型)算法出现问题,并且应该寻求方法来“平衡”数据集,恢复完美的 50/50分为正类和负类。
赞成的答案的一般意义是“它不是,至少如果你在你的建模中深思熟虑的话”。M. Henry L. 在对已接受答案的赞成评论中指出
[...] 使用不平衡数据并没有什么低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意 AdamO 的观点,一般来说,不平衡的数据不会对指定良好的模型造成概念上的问题。
AdamO 认为阶级平衡的“问题”确实是阶级罕见的问题之一
因此,至少在回归中(但我怀疑在所有情况下),数据不平衡的唯一问题是您实际上拥有的样本量很小。如果任何方法适合稀有类的人数,如果他们的比例成员不平衡,应该没有问题。
如果这是手头的真正问题,那么它留下了一个悬而未决的问题:旨在平衡数据集的所有重采样方法的目的是什么:过采样、欠采样、SMOTE 等? 显然,它们并没有解决隐含样本量小的问题,您不能无中生有地创建信息!