总体 AUC 高于所有“分层”AUC

数据挖掘 公制 奥克
2022-03-02 02:53:46

对于我的一个二元分类模型,我观察到了这个(辛普森规则式)悖论。整个测试集的 AUC 为 0.8。

性别是该模型的特征之一。所以我决定制作一份“偏差”报告,为此我计算了每个男性和女性亚组的 AUC。但我注意到这些 AUC 中的每一个都在 0.7 左右。鉴于整体测试 AUC 为 0.8,这怎么可能?(在我的数据集中,每个数据点都属于男性或女性子组。)我不希望整体 AUC只是单个层的 AUC 的(加权)线性组合。

我希望得到技术/数学答案和高级解释。如果需要任何进一步的信息,请告诉我(例如,如果您认为我应该绘制整体、男性和女性 ROC 曲线)。谢谢!

1个回答

AUC可以定义P(X1>X0)在哪里X1是随机选择的正例的得分,并且X0是随机选择的负例的分数。

就像在辛普森的“悖论”中一样,你所看到的可能会发生,因为该群体对你的目标有相对较大的影响。例如,一组可能主要是积极的,另一组可能主要是消极的。分类器可能在每个组中根本不起作用,但如果它仅仅能够预测我们所在的组(或者在你的情况下它只是输入之一),它可以具有高 AUC。