机器算法验证 - glm中的相关性是什么意思 - 吾爱随笔录

glm中的相关性是什么意思

机器算法验证 r 相关性广义线性模型

2022-04-16 10:05:30

我已经使用glm. 在summary(model)我得到一个相关矩阵，但我不明白如何计算相关性以及解释是什么。文档说“估计系数的估计相关性”，但估计系数是实数（一维），因此相关性没有意义。

2个回答

您实际上是在问题的正文中提及您的问题的答案。您看到的系数实际上是估计的。这意味着系数本身实际上是遵循分布的随机变量。你看到的是随机变量的一个值。计算出的相关性是随机变量之间的相关性，而不是您提到的估计之间的相关性，这是没有意义的。

这就是为什么我们对每个系数进行 t 检验（假设检验）并检查每个系数的重要性。

为了证明我的观点，考虑一个超级简单的模型：

 a <- rnorm(100)
 b <- rnorm(100)
 df <- data.frame(a,b)

> summary(glm(a~b, data=df), corr=TRUE)

Call:
glm(formula = a ~ b, data = df)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.48721  -0.64103   0.00034   0.66420   2.50019  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.095567   0.103944  -0.919    0.360
b            0.007084   0.107731   0.066    0.948

(Dispersion parameter for gaussian family taken to be 1.075244)

    Null deviance: 105.38  on 99  degrees of freedom
Residual deviance: 105.37  on 98  degrees of freedom
AIC: 295.02

Number of Fisher Scoring iterations: 2

Correlation of Coefficients:
  (Intercept)
b 0.07

正如您在摘要输出中看到的那样，对于系数，您有 4 列。估计值、标准误差、t 值和 p 值。t 统计量（beta / 标准误差）遵循 t 分布并具有相关的 p 值。

因此，由于 b0（截距）和 b1 都是随机变量，因此可以计算它们之间的相关性。

估计的相关性是一个缩放参数，因此无论预测变量的线性变换如何，估计概率的标准偏差都是恒定的。它们没有实质意义。他们只设置协方差的度量。

其它你可能感兴趣的问题

上一篇Cox回归中变量的相对重要性下一篇基于熵的假设检验