哪些分类算法会受到类不平衡的负面影响?

数据挖掘 机器学习 分类 预测建模 多标签分类 阶级失衡
2021-10-11 12:57:02

我在网上看到过一些帖子和论文(主要是与过采样/欠采样、SMOTE 和成本敏感训练相关的),在讨论类不平衡时,指出某些算法会受到类不平衡的负面影响。

那些算法是什么?哪些不是?我们如何确定算法或方法是否会受到类不平衡的负面影响?

2个回答

[此回答基于我有限的知识,请不要犹豫在评论中编辑或提出改进]

实际上,我认为说算法会受到类不平衡的影响有点误导,因为受影响的不完全是算法,而是评估方法(我的意思是广义上的“评估”,包括算法使用的损失函数)训练)。一些算法可能与特定的损失函数或内部优化策略密切相关,因此通过关联这些算法具有相同的弱点。

看到类不平衡问题完全取决于评估方法的一个简单方法是在 99% 的实例属于同一类的情况下,比较类的微观平均性能和宏观平均性能:

  • 微平均为每个实例赋予相同的权重,因此分配多数类的模型看起来好像表现非常好。
  • 宏观平均为每个类赋予相同的权重,因此分配多数类不会比随机分配更好。

所以从技术上讲,类不平衡的问题可以(应该?)被视为最大化正确分类的实例数量(默认评估)和任何其他替代方案之间的设计选择,例如对每个类赋予相同的权重。但是,为每个问题设计特定的评估度量或损失函数当然不切实际也不常见。

不受类不平衡影响的 ML 模型是 SVM 应用于线性可分数据的版本。