处理不平衡类的方法的分类

数据挖掘 机器学习 分类 阶级失衡 不平衡 不平衡数据
2021-10-05 12:11:05

对处理不平衡类问题的方法进行分类的最佳方法是什么?

本文将它们分类为:

  1. 预处理:包括过采样、欠采样和混合方法,
  2. 成本敏感学习:包括直接方法和元学习,后者进一步分为阈值和采样,
  3. 集成技术:包括成本敏感的集成和数据预处理以及集成学习。

第二种分类

  1. 数据预处理:包括分布变化和加权数据空间。一类学习被认为是分布变化。
  2. 特殊目的的学习方法
  3. 预测后处理:包括阈值法和代价敏感的后处理
  4. 混合方法:

第三

  1. 数据级方法
  2. 算法级方法
  3. 混合方法

最后一种分类也将输出调整视为一种独立的方法。

提前致谢。

1个回答

在我看来,这三个分类在很多方面都是一致的。例如,所有三个都有一个用于预处理步骤的类别。

我倾向于同意第三种分类,因为它更通用,包含更多的东西。

  • 数据级类别包括处理类别不平衡(例如过/欠采样)的任何预处理步骤。
  • 算法层面可以考虑包括前两篇文章的第二类处理类别不平衡的算法的任何更改都将在这里进行(例如类别加权)。
  • 最后,将两者结合起来的混合类别。

前两篇文章中唯一缺少的是后处理步骤,说实话,在实践中并没有像另一篇那样经常使用这些步骤。