不平衡分类问题的机会水平准确度是多少?

机器算法验证 分类 支持向量机 交叉验证 二进制数据 不平衡类
2022-04-01 01:19:52

假设有一个平衡分类问题(50% 的 0 和 50% 的 1)。在这种情况下,分类器的所谓机会级别准确率将是 50%。

如果问题是不平衡的问题(例如 0 的 25% 和 1 的 75%),机会级别的准确度是多少。还是50%吗?如果一个人猜测每个组是 1,那么一个人将达到 75% 的准确度。但是,随机分配组仍然会(?)平均给出 50% 的正确率。

如果重要的话,我使用 SVM 进行分类,并使用 10 倍交叉验证进行性能估计。

1个回答

随机分类器的性能取决于它预测为正的次数,例如P(y^=1). 随机模型本质上是指其预测的模型y^独立于真实标签y, 意思是:

P(y^=1 | y=1)=P(y^=1),
P(y=1 | y^=1)=P(y=1).
正确的概率,即预期的准确度是:
P(y^=y)=P(y^=1)P(y=1)+P(y^=0)P(y=0).
如果数据集不平衡,则具有最佳预期准确度的“随机”模型总是预测多数类,预期准确度等于多数类中数据的比例。

高度不平衡的数据集(比如 99% 的负数)的主要问题是,您最终可能会得到如上所述的琐碎模型,即始终预测多数类(负数)并实现高精度(99%)的模型,所以这个没用的模型实际上看起来不错。如果您在优化超参数时使用较差的评分函数(例如准确性),您很可能在不平衡的设置中获得非常糟糕的模型。

这是应避免诸如准确性之类的离散度量的众多原因之一。使用 ROC 或 PR 曲线下的面积等度量时,您不会遇到此类问题。