我被困住了,并且有真正的问题要从我目前的结果中解释什么。也许你能帮帮我?谢谢!
可以说...我正在调查健康因素对死亡的影响。
因变量:10 年后死亡是/否
自变量:每天毫升酒,每天香烟,每天克水果或蔬菜,每天锻炼分钟等......
我正在做一个逻辑回归,因为我有一个二元因变量:
model.binomial <- glm(dv_death ~
wine +
cigarettes +
fruits +
excercise,
data = complete_dataset, family = binomial(link = logit))
我有一个问题,我可能只是失明了,但是..:
如果我将所有变量(葡萄酒、香烟、水果和锻炼)都放入模型中,那么它们都是显着的。如果我只使用自变量“葡萄酒”,它并不显着(所有其他变量也是如此:我不得不承认,葡萄酒 + 香烟之间的相关性也为 0.55,但 VIF 和 Eigenscores 还可以)。但是......当我使用以下方法专门查看葡萄酒和死亡数据时:
ggplot(complete_dataset, aes(x=complete_dataset$wine, y=complete_dataset$death))+ geom_point(size=2, alpha=0.4)+
stat_smooth(method="loess", colour="blue", size=1.5)+
xlab("Wine")+
ylab("Death (yes = 1)")+
theme_bw()
对我来说,这似乎是一个 u 型相关性:太少的酒和太多的酒会降低你死亡的可能性,所以要么是个酒鬼,要么不要每个人都喝一口……
但是,变量并不显着。我可以在逻辑回归中测试 au 形状吗?还是我走错了路?
(别担心 - 这是一个虚构的例子,所以给自己倒杯酒..)
由于评论而更新:
我在模型中添加了一个自变量平方酒。
没有 winesquared 的完整模型: wine 不显着。
wine + winesquared 的完整模型:两者都很重要 - wine (p<0.001),wine squared (p<0.01)
没有 winesquared 的单一模型: wine 不显着
仅单一模型 winesquared: winesquared 不显着
带有 wine 和 winesquared 的“单一”模型:两者都很显着 - p<0.1
感谢@Roland 更新: GAM 模型:
model.binomial.gam <- mgcv::gam(dv_death ~
s(wine) +
cigarettes +
fruits +
excercise,
data = complete_dataset, family = binomial(link = logit), select = TRUE)
summary(model.binomial.gam)
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.9217701 0.3225723 -2.858 0.004269 **
cigarettes -8.0936235 3.5047369 -2.309 0.020925 *
fruits 0.3063182 0.0838298 3.654 0.000258 ***
excercise 0.1126536 0.0273186 4.124 0.000037284368 ***
Approximate significance of smooth terms
edf Ref.df Chi.sq p-value
s(wine) 2.478 9 16.55 0.00014 ***
