机器算法验证 - 不平衡分类问题的机会水平准确度是多少？ - 吾爱随笔录

机器算法验证分类支持向量机交叉验证二进制数据不平衡类

2022-04-01 01:19:52

假设有一个平衡分类问题（50% 的 0 和 50% 的 1）。在这种情况下，分类器的所谓机会级别准确率将是 50%。

如果问题是不平衡的问题（例如 0 的 25% 和 1 的 75%），机会级别的准确度是多少。还是50%吗？如果一个人猜测每个组是 1，那么一个人将达到 75% 的准确度。但是，随机分配组仍然会（？）平均给出 50% 的正确率。

如果重要的话，我使用 SVM 进行分类，并使用 10 倍交叉验证进行性能估计。

1个回答

随机分类器的性能取决于它预测为正的次数，例如 $P(\hat{y} = 1)$ . 随机模型本质上是指其预测的模型 $\hat{y}$ 独立于真实标签 $y$ ，意思是：

P (\hat{y} = 1 | y = 1) = P (\hat{y} = 1),

$P(\hat{y} = 1\ |\ y = 1) = P(\hat{y} = 1),$ 和

P (y = 1 | \hat{y} = 1) = P (y = 1) .

$P(y = 1\ |\ \hat{y} = 1) = P(y = 1).$ 正确的概率，即预期的准确度是：

P (\hat{y} = y) = P (\hat{y} = 1) P (y = 1) + P (\hat{y} = 0) P (y = 0) .

$P(\hat{y} = y) = P(\hat{y} = 1) P(y = 1) + P(\hat{y} = 0) P(y = 0).$ 如果数据集不平衡，则具有最佳预期准确度的“随机”模型总是预测多数类，预期准确度等于多数类中数据的比例。

高度不平衡的数据集（比如 99% 的负数）的主要问题是，您最终可能会得到如上所述的琐碎模型，即始终预测多数类（负数）并实现高精度（99%）的模型，所以这个没用的模型实际上看起来不错。如果您在优化超参数时使用较差的评分函数（例如准确性），您很可能在不平衡的设置中获得非常糟糕的模型。

这是应避免诸如准确性之类的离散度量的众多原因之一。使用 ROC 或 PR 曲线下的面积等度量时，您不会遇到此类问题。

其它你可能感兴趣的问题