假设我们对一些所有预测变量都是名义的数据进行了逻辑回归。对于虚拟编码,系数是对数几率与参考水平的比率。一位同事声称我们可以“求解 ”或“将逆 logit 应用于估计的参数”将结果解释为相对概率,但我的直觉告诉我 logit 函数的表现不太好。请参阅下面更具体的示例:
mydata<-data.frame(outcome = rbinom(1000, 1, 0.3),
Race=sample(c("White", "Black", "Hispanic", "Other"), 1000, replace=TRUE),
Gender=sample(c("M", "F"), 1000, replace=TRUE))
myglm <- glm(outcome ~ Race + Gender, family=binomial(), data=mydata)
x <- summary(myglm)$coefficients[,1]
cbind(coef_log_odds = x, coef_prob = exp(x) / (1 + exp(x)) * 2)
# coef_log_odds coef_prob
# (Intercept) -1.09760895 0.5003763
# RaceHispanic 0.18458782 1.0920327
# RaceOther 0.08886623 1.0444039
# RaceWhite 0.04471730 1.0223549
# GenderM 0.40350628 1.1990596
我们看到它coef_prob是GenderM1.199。这可以解释为“保持所有其他因素不变,男性的可能性是女性的 1.2 倍outcome1”?