glm中的相关性是什么意思

机器算法验证 r 相关性 广义线性模型
2022-04-16 10:05:30

我已经使用glm. summary(model)我得到一个相关矩阵,但我不明白如何计算相关性以及解释是什么。文档说“估计系数的估计相关性”,但估计系数是实数(一维),因此相关性没有意义。

2个回答

您实际上是在问题的正文中提及您的问题的答案。您看到的系数实际上是估计的。这意味着系数本身实际上是遵循分布的随机变量。你看到的是随机变量的一个值。计算出的相关性是随机变量之间的相关性,而不是您提到的估计之间的相关性,这是没有意义的。

这就是为什么我们对每个系数进行 t 检验(假设检验)并检查每个系数的重要性。

为了证明我的观点,考虑一个超级简单的模型:

 a <- rnorm(100)
 b <- rnorm(100)
 df <- data.frame(a,b)

> summary(glm(a~b, data=df), corr=TRUE)

Call:
glm(formula = a ~ b, data = df)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.48721  -0.64103   0.00034   0.66420   2.50019  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.095567   0.103944  -0.919    0.360
b            0.007084   0.107731   0.066    0.948

(Dispersion parameter for gaussian family taken to be 1.075244)

    Null deviance: 105.38  on 99  degrees of freedom
Residual deviance: 105.37  on 98  degrees of freedom
AIC: 295.02

Number of Fisher Scoring iterations: 2

Correlation of Coefficients:
  (Intercept)
b 0.07       

正如您在摘要输出中看到的那样,对于系数,您有 4 列。估计值、标准误差、t 值和 p 值。t 统计量(beta / 标准误差)遵循 t 分布并具有相关的 p 值。

因此,由于 b0(截距)和 b1 都是随机变量,因此可以计算它们之间的相关性。

估计的相关性是一个缩放参数,因此无论预测变量的线性变换如何,估计概率的标准偏差都是恒定的。它们没有实质意义。他们只设置协方差的度量。