将对数赔率系数转换为概率

机器算法验证 回归 物流 分类
2022-04-10 14:54:42

假设我们对一些所有预测变量都是名义的数据进行了逻辑回归。对于虚拟编码,系数是对数几率与参考水平的比率。一位同事声称我们可以“求解 ”或“将逆 logit 应用于估计的参数”将结果解释为相对概率,但我的直觉告诉我 logit 函数的表现不太好。请参阅下面更具体的示例:p

mydata<-data.frame(outcome = rbinom(1000, 1, 0.3),
                     Race=sample(c("White", "Black", "Hispanic", "Other"), 1000, replace=TRUE), 
                     Gender=sample(c("M", "F"), 1000, replace=TRUE))                    
myglm <- glm(outcome ~ Race + Gender, family=binomial(), data=mydata)
x <- summary(myglm)$coefficients[,1]
cbind(coef_log_odds = x, coef_prob = exp(x) / (1 + exp(x)) * 2)

#              coef_log_odds coef_prob
# (Intercept)    -1.09760895 0.5003763
# RaceHispanic    0.18458782 1.0920327
# RaceOther       0.08886623 1.0444039
# RaceWhite       0.04471730 1.0223549
# GenderM         0.40350628 1.1990596

我们看到它coef_probGenderM1.199。这可以解释为“保持所有其他因素不变,男性的可能性是女性的 1.2 倍outcome1”?

1个回答

几率和概率之间的关系是非线性的,因此男性和女性之间具有恒定几率比的模型不会转化为男性和女性之间具有恒定概率比(也称为相对风险)的模型——后者取决于截距& 其他预测变量的值。并且您应用逆 logit 函数从赔率中获取概率,而不是从优势比中获取概率比。

这里黑人男性和黑人女性之间的概率比是

exp(1.0976+0.4035)1+exp(1.0976+0.4035)exp(1.0976)1+exp(1.098)1.331

而西班牙裔男性和西班牙裔女性之间的差距是

exp(1.0976+0.1846+0.4035)1+exp(1.0976+0.1846+0.4035)exp(1.0976+0.1846)1+exp(1.098+0.1846)1.311

如果您有另一场比赛的胜算比很大,那么概率比可能会非常不同。