假设有一个平衡分类问题(50% 的 0 和 50% 的 1)。在这种情况下,分类器的所谓机会级别准确率将是 50%。
如果问题是不平衡的问题(例如 0 的 25% 和 1 的 75%),机会级别的准确度是多少。还是50%吗?如果一个人猜测每个组是 1,那么一个人将达到 75% 的准确度。但是,随机分配组仍然会(?)平均给出 50% 的正确率。
如果重要的话,我使用 SVM 进行分类,并使用 10 倍交叉验证进行性能估计。
假设有一个平衡分类问题(50% 的 0 和 50% 的 1)。在这种情况下,分类器的所谓机会级别准确率将是 50%。
如果问题是不平衡的问题(例如 0 的 25% 和 1 的 75%),机会级别的准确度是多少。还是50%吗?如果一个人猜测每个组是 1,那么一个人将达到 75% 的准确度。但是,随机分配组仍然会(?)平均给出 50% 的正确率。
如果重要的话,我使用 SVM 进行分类,并使用 10 倍交叉验证进行性能估计。
随机分类器的性能取决于它预测为正的次数,例如. 随机模型本质上是指其预测的模型独立于真实标签, 意思是:
高度不平衡的数据集(比如 99% 的负数)的主要问题是,您最终可能会得到如上所述的琐碎模型,即始终预测多数类(负数)并实现高精度(99%)的模型,所以这个没用的模型实际上看起来不错。如果您在优化超参数时使用较差的评分函数(例如准确性),您很可能在不平衡的设置中获得非常糟糕的模型。
这是应避免诸如准确性之类的离散度量的众多原因之一。使用 ROC 或 PR 曲线下的面积等度量时,您不会遇到此类问题。