基尼系数是衡量高度不平衡数据上预测模型性能的好指标吗

数据挖掘 预测建模 准确性 评估 模型选择 阶级失衡
2021-10-05 23:41:44

我正在评估一个信用风险模型,该模型可以预测客户违约其抵押贷款账户的估计可能性。该模型是一个逻辑回归估计器,由另一个团队构建。他们使用 Gini 指标来衡量模型的性能。他们达到了 87%。经过评估,我发现召回率为 51%,而非罕见事件类(不默认)的错误率为 0.9%。我认为在这种情况下基尼系数实际上是一个误导性指标是否正确,因为它并没有真正显示出罕见事件类别的极差预测性能?我曾就此向他们提出过质疑,并试图推荐他们使用精确/召回指标以及混淆矩阵和精确召回权衡图,但他们很快就解雇了我。

任何建议将不胜感激。

3个回答

基尼系数也可以用 ROC 曲线下面积 (AUC) 来表示:G = 2*AUC -1 link另一方面,ROC 曲线通过误报率受到类别不平衡的影响FP/(FP+TN)如果底片的数量更多,这可能是一个潜在的问题。

简而言之,基尼系数与 AUC ROC 指标具有相似的优点和缺点。

在我看来,基尼系数不应该是不平衡分类的坏指标,因为它与 AUC 相关,效果很好。也许是基尼杂质而不是系数。检查一次预测的 AUC。此外,PR 曲线下的面积是比 AUC 更好的不平衡分类指标,也许你也应该看到这一点。

信用模型在预测个别违约方面做得不好,而且错误率通常很高。也就是说,相当高比例的可疑借款人没有违约。人们总是可以通过使截止更慷慨来降低这一比例,这样只有最差的借款人会留在“坏”池中;但必要的权衡是必须将更多的借款人放入“好”池中,因此“好”池中会发生更多违约。

基尼系数(或大致相当的 AUC)是评估模型在整个信用截止范围内的表现的合理工具,但实际上这通常不是我们想要的。我们真的想让我们的贷款业务盈利,这意味着我们必须考虑我们从良好的抵押贷款中获得了多少利润,以及我们从违约中损失了多少。最好的模型是在这些模型之间进行最佳权衡的模型。这与我们成功预测个人违约无关,这就是为什么基尼系数并不是真正有用的原因。

因为成本和利润数字对每个贷方来说都是特定的,所以很可能模型 A 对一个贷方来说比模型 B 的效果更好,而对于另一家贷方来说,模型 B 比模型 A 效果更好。没有最适合每个贷方的模型。