对于我的一个二元分类模型,我观察到了这个(辛普森规则式)悖论。整个测试集的 AUC 为 0.8。
性别是该模型的特征之一。所以我决定制作一份“偏差”报告,为此我计算了每个男性和女性亚组的 AUC。但我注意到这些 AUC 中的每一个都在 0.7 左右。鉴于整体测试 AUC 为 0.8,这怎么可能?(在我的数据集中,每个数据点都属于男性或女性子组。)我不希望整体 AUC只是单个层的 AUC 的(加权)线性组合。
我希望得到技术/数学答案和高级解释。如果需要任何进一步的信息,请告诉我(例如,如果您认为我应该绘制整体、男性和女性 ROC 曲线)。谢谢!