机器算法验证 - GLM中的偏差与基尼系数 - 吾爱随笔录

GLM中的偏差与基尼系数

机器算法验证回归广义线性模型拟合优度越轨基尼

2022-04-01 12:37:17

在测量回归/分类模型的质量时，使用偏差而不是基尼系数有什么优缺点？

根据经验，我发现人们更喜欢 Gini 而不是 Deviance。我不知道原因，但也许偏差对异常值过于敏感，而基尼则不是。同时也会给我们带来不便。对我来说，这两种措施应该同时考虑。

1个回答

正如链接中所提到的， Scortchi 提供的基尼系数（或比例 c 统计量或 AUC）仅包含模型对结果进行排序的程度信息，而没有关于校准的信息。

二元 glm 模型中的偏差是对数评分规则负值的两倍，如下所示

> model <- glm(formula= vs ~ wt + disp, data=mtcars, family=binomial)
> 
> # the negative deviance
> -model$deviance
[1] -21.40039
> 
> # the logarithmic scoring rule
> ps <- predict(model, type = "response")
> with(mtcars, sum(vs * log(ps) + (1 - vs) * log(1 - ps)))
[1] -10.70019

对数评分规则确实提供了有关校准的信息。您可能还想看看这篇文章。

其它你可能感兴趣的问题

上一篇对比的 Scheffé 检验是事后检验的“最佳情况”吗？下一篇为什么在神经网络中将成本函数缩放 1/n？