GLM中的偏差与基尼系数

机器算法验证 回归 广义线性模型 拟合优度 越轨 基尼
2022-04-01 12:37:17

在测量回归/分类模型的质量时,使用偏差而不是基尼系数有什么优缺点?

根据经验,我发现人们更喜欢 Gini 而不是 Deviance。我不知道原因,但也许偏差对异常值过于敏感,而基尼则不是。同时也会给我们带来不便。对我来说,这两种措施应该同时考虑。

1个回答

正如链接中所提到的, Scortchi 提供的基尼系数(或比例 c 统计量或 AUC)仅包含模型对结果进行排序的程度信息,而没有关于校准的信息。

二元 glm 模型中的偏差是对数评分规则负值的两倍,如下所示

> model <- glm(formula= vs ~ wt + disp, data=mtcars, family=binomial)
> 
> # the negative deviance
> -model$deviance
[1] -21.40039
> 
> # the logarithmic scoring rule
> ps <- predict(model, type = "response")
> with(mtcars, sum(vs * log(ps) + (1 - vs) * log(1 - ps)))
[1] -10.70019

数评分规则确实提供了有关校准的信息。您可能还想看看这篇文章