逻辑回归的u形?

机器算法验证 r 回归 物流 统计学意义
2022-04-08 10:03:40

我被困住了,并且有真正的问题要从我目前的结果中解释什么。也许你能帮帮我?谢谢!

可以说...我正在调查健康因素对死亡的影响。

因变量:10 年后死亡是/否

自变量:每天毫升酒,每天香烟,每天克水果或蔬菜,每天锻炼分钟等......

我正在做一个逻辑回归,因为我有一个二元因变量:

model.binomial <- glm(dv_death ~ 
                            wine +
                            cigarettes +
                            fruits +
                            excercise,
                          data = complete_dataset, family = binomial(link = logit))

我有一个问题,我可能只是失明了,但是..:

如果我将所有变量(葡萄酒、香烟、水果和锻炼)都放入模型中,那么它们都是显着的。如果我只使用自变量“葡萄酒”,它并不显着(所有其他变量也是如此:我不得不承认,葡萄酒 + 香烟之间的相关性也为 0.55,但 VIF 和 Eigenscores 还可以)。但是......当我使用以下方法专门查看葡萄酒和死亡数据时:

ggplot(complete_dataset, aes(x=complete_dataset$wine, y=complete_dataset$death))+ geom_point(size=2, alpha=0.4)+
  stat_smooth(method="loess", colour="blue", size=1.5)+
  xlab("Wine")+
  ylab("Death (yes = 1)")+
  theme_bw()

...我得到了这样的情节: 变量设置见 R 代码

对我来说,这似乎是一个 u 型相关性:太少的酒和太多的酒会降低你死亡的可能性,所以要么是个酒鬼,要么不要每个人都喝一口……

但是,变量并不显着。我可以在逻辑回归中测试 au 形状吗?还是我走错了路?

(别担心 - 这是一个虚构的例子,所以给自己倒杯酒..)

由于评论而更新:

我在模型中添加了一个自变量平方酒。

没有 winesquared 的完整模型: wine 不显着。

wine + winesquared 的完整模型:两者都很重要 - wine (p<0.001),wine squared (p<0.01)

没有 winesquared 的单一模型: wine 不显着

仅单一模型 winesquared: winesquared 不显着

带有 wine 和 winesquared 的“单一”模型:两者都很显着 - p<0.1

感谢@Roland 更新: GAM 模型:

model.binomial.gam <- mgcv::gam(dv_death ~ 
                                  s(wine) +
                                  cigarettes +
                                  fruits +
                                  excercise,
                                data = complete_dataset, family = binomial(link = logit), select = TRUE)
summary(model.binomial.gam)
                             Estimate Std. Error z value       Pr(>|z|)    
(Intercept)                -0.9217701  0.3225723  -2.858       0.004269 ** 
cigarettes                 -8.0936235  3.5047369  -2.309       0.020925 *  
fruits                      0.3063182  0.0838298   3.654       0.000258 ***
excercise                   0.1126536  0.0273186   4.124 0.000037284368 ***

Approximate significance of smooth terms
          edf Ref.df Chi.sq p-value    
s(wine) 2.478      9  16.55 0.00014 ***
1个回答

是的。包括消费的葡萄酒单位的二次项。该术语的统计意义可能表明拐点的存在,在该点线性趋势枢轴。它还可能表明“加速”效应,其中依次较高或较低的剂量可能会随着结果风险的增加而呈上升趋势。再配上你已经生产的黄土顺滑,有力地证明了以前所说的“U型”的饮酒趋势。

如果其中包括截距项、线性项和二次项,则生成的模型拟合对数赔率中的二次趋势,其顶点位置和值最佳地预测数据中的趋势。如果省略线性项,则二次形式被限制为在原点处达到极值(不消耗葡萄酒),这不会反映暴露持续时间中明显的趋势逆转。