在测量回归/分类模型的质量时,使用偏差而不是基尼系数有什么优缺点?
根据经验,我发现人们更喜欢 Gini 而不是 Deviance。我不知道原因,但也许偏差对异常值过于敏感,而基尼则不是。同时也会给我们带来不便。对我来说,这两种措施应该同时考虑。
在测量回归/分类模型的质量时,使用偏差而不是基尼系数有什么优缺点?
根据经验,我发现人们更喜欢 Gini 而不是 Deviance。我不知道原因,但也许偏差对异常值过于敏感,而基尼则不是。同时也会给我们带来不便。对我来说,这两种措施应该同时考虑。
正如链接中所提到的, Scortchi 提供的基尼系数(或比例 c 统计量或 AUC)仅包含模型对结果进行排序的程度信息,而没有关于校准的信息。
二元 glm 模型中的偏差是对数评分规则负值的两倍,如下所示
> model <- glm(formula= vs ~ wt + disp, data=mtcars, family=binomial)
>
> # the negative deviance
> -model$deviance
[1] -21.40039
>
> # the logarithmic scoring rule
> ps <- predict(model, type = "response")
> with(mtcars, sum(vs * log(ps) + (1 - vs) * log(1 - ps)))
[1] -10.70019