如何解释 GLM 中的截距项?

机器算法验证 r 广义线性模型
2022-02-14 06:10:27

我正在使用 R 并且我一直在使用带有二项式链接的 GLM 分析我的数据。

我想知道输出表中的intercept是什么意思。我的一个模型的截距明显不同,但变量不是。这是什么意思?

什么是截距。我不知道我是否只是让自己感到困惑,但是搜索了互联网,没有什么只是说,就是这个,注意它......或者不要。

请帮助,一个非常沮丧的学生


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5
3个回答

截距项是 GLM 方程线性部分的截距,因此您的均值模型是E[Y]=g1(Xβ), 在哪里g是你的链接功能和Xβ是你的线性模型。该线性模型包含一个“截距项”,即:

Xβ=c+X1β1+X2β2+

在您的情况下,截距明显非零,但变量不是,所以它是说

Xβ=c0

因为您的链接函数是二项式的,所以

g(μ)=ln(μ1μ)

因此,仅使用截距项,您的均值拟合模型为:

E[Y]=11+ec

你可以看到,如果c=0那么这仅对应于获得 Y=1 或 0 的 50:50 机会,即E[Y]=11+1=0.5

因此,您的结果是说您无法预测结果,但一类(1 或 0)比另一类更有可能。

在我看来,数据可能存在一些问题。奇怪的是,系数的参数估计值为 0.000。看起来你的 DV 和你的 IV 都是二分法的,你的 DV 的比例根本不会随着你的 IV 而变化。这是正确的吗?

正如我在评论中指出的那样(正如@corone 的回答所暗示的那样),截距是 IV 为 0 时的 DV 值。您的 IV 是如何编码的?尽管如此,系数的估计值为 0.000 的事实意味着 IV 没有任何区别。

因此,截距 2.708 是 DV 的估计 logit:即log(p1p)在 IV 的所有级别。

在您的情况下,截距是 的总平均值attacked_excluding_app,计算所有数据,而不管treatment系数表中的显着性检验是检验它是否显着不同于零。这是否相关取决于您是否有一些先验理由期望它为零。

例如,假设您测试了一种药物和安慰剂对血压的影响。对于每个受试者,您通过计算(治疗后的压力 - 治疗前的压力)记录他们的血压变化,并将其视为分析中的因变量。然后您会发现治疗效果(药物与安慰剂)不显着,但截距显着 > 0 - 这将告诉您平均而言,您的受试者的血压在两次测量时间之间增加。这可能很有趣,需要进一步调查。