我已经使用glm. 在summary(model)我得到一个相关矩阵,但我不明白如何计算相关性以及解释是什么。文档说“估计系数的估计相关性”,但估计系数是实数(一维),因此相关性没有意义。
glm中的相关性是什么意思
机器算法验证
r
相关性
广义线性模型
2022-04-16 10:05:30
2个回答
您实际上是在问题的正文中提及您的问题的答案。您看到的系数实际上是估计的。这意味着系数本身实际上是遵循分布的随机变量。你看到的是随机变量的一个值。计算出的相关性是随机变量之间的相关性,而不是您提到的估计之间的相关性,这是没有意义的。
这就是为什么我们对每个系数进行 t 检验(假设检验)并检查每个系数的重要性。
为了证明我的观点,考虑一个超级简单的模型:
a <- rnorm(100)
b <- rnorm(100)
df <- data.frame(a,b)
> summary(glm(a~b, data=df), corr=TRUE)
Call:
glm(formula = a ~ b, data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.48721 -0.64103 0.00034 0.66420 2.50019
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.095567 0.103944 -0.919 0.360
b 0.007084 0.107731 0.066 0.948
(Dispersion parameter for gaussian family taken to be 1.075244)
Null deviance: 105.38 on 99 degrees of freedom
Residual deviance: 105.37 on 98 degrees of freedom
AIC: 295.02
Number of Fisher Scoring iterations: 2
Correlation of Coefficients:
(Intercept)
b 0.07
正如您在摘要输出中看到的那样,对于系数,您有 4 列。估计值、标准误差、t 值和 p 值。t 统计量(beta / 标准误差)遵循 t 分布并具有相关的 p 值。
因此,由于 b0(截距)和 b1 都是随机变量,因此可以计算它们之间的相关性。
估计的相关性是一个缩放参数,因此无论预测变量的线性变换如何,估计概率的标准偏差都是恒定的。它们没有实质意义。他们只设置协方差的度量。
其它你可能感兴趣的问题