常见的模型验证统计数据,如Kolmogorov-Smirnov 检验(KS)、AUROC和Gini 系数,都在功能上相关。但是,我的问题与证明这些都是如何相关的有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但我真的很感兴趣证明是如何工作的。例如,我知道 Gini=2AUROC-1,但我最好的证明是指向一个图表。我对正式证明感兴趣。任何帮助将不胜感激!
KS、AUROC 和 Gini 之间的关系
数据挖掘
数据挖掘
统计数据
预测建模
准确性
2021-09-26 06:03:31
3个回答
接收器操作特性的 Wikipedia 条目参考了这篇论文以获得 Gini=2AUROC-1 结果:Hand, David J.;和 Till, Robert J. (2001);多类分类问题的 ROC 曲线下面积的简单概括,机器学习,45, 171–186。但是恐怕我无法轻松访问它以查看它与您想要的东西有多接近。
结果 Gini=2*AUROC-1 很难证明,因为它不一定是真的。Wikipedia 关于Receiver Operating Characteristic 曲线的文章给出了 Gini 定义的结果,Hand 和 Till 的文章(由 nealmcb 引用)仅仅说使用 ROC 曲线的 Gini 图形定义导致了这个公式。
问题是机器学习和工程社区使用了这个 Gini 定义,但经济学家和人口统计学家使用了不同的定义(回到 Gini 的原始论文)。维基百科关于基尼系数的文章基于洛伦兹曲线提出了这个定义。
Schechtman & Schechtman (2016) 的一篇论文阐述了 AUC 与原始基尼定义之间的关系。但是要看到它们不可能完全相同,假设事件的比例是p并且我们有一个完美的分类器。然后 ROC 曲线经过左上角,AUCROC 为 1。然而,(翻转的)洛伦兹曲线从 (0,0) 到 ( p ,1) 到 (1,1),经济学家的基尼系数为 1 - p /2,接近但不完全是 1。
如果事件很少发生,那么使用 Gini 的原始定义,关系 Gini=2*AUROC-1 几乎但不完全正确。只有重新定义 Gini 以使其正确,这种关系才完全正确。
其它你可能感兴趣的问题