数据挖掘 - 哪些分类算法会受到类不平衡的负面影响？ - 吾爱随笔录

数据挖掘机器学习分类预测建模多标签分类阶级失衡

2021-10-11 12:57:02

我在网上看到过一些帖子和论文（主要是与过采样/欠采样、SMOTE 和成本敏感训练相关的），在讨论类不平衡时，指出某些算法会受到类不平衡的负面影响。

那些算法是什么？哪些不是？我们如何确定算法或方法是否会受到类不平衡的负面影响？

2个回答

[此回答基于我有限的知识，请不要犹豫在评论中编辑或提出改进]

实际上，我认为说算法会受到类不平衡的影响有点误导，因为受影响的不完全是算法，而是评估方法（我的意思是广义上的“评估”，包括算法使用的损失函数）训练）。一些算法可能与特定的损失函数或内部优化策略密切相关，因此通过关联这些算法具有相同的弱点。

看到类不平衡问题完全取决于评估方法的一个简单方法是在 99% 的实例属于同一类的情况下，比较类的微观平均性能和宏观平均性能：

所以从技术上讲，类不平衡的问题可以（应该？）被视为最大化正确分类的实例数量（默认评估）和任何其他替代方案之间的设计选择，例如对每个类赋予相同的权重。但是，为每个问题设计特定的评估度量或损失函数当然不切实际也不常见。

不受类不平衡影响的 ML 模型是 SVM 应用于线性可分数据的版本。

其它你可能感兴趣的问题