如何在 R 中解释 GLM 中的 Null 和 Residual Deviation?就像,我们说 AIC 越小越好。对于这些偏差是否也有类似的快速解释?
零偏差:1077 自由度上的 1146.1 残余偏差:1099 自由度上的 4589.4 AIC:11089
如何在 R 中解释 GLM 中的 Null 和 Residual Deviation?就像,我们说 AIC 越小越好。对于这些偏差是否也有类似的快速解释?
零偏差:1077 自由度上的 1146.1 残余偏差:1099 自由度上的 4589.4 AIC:11089
令 LL = 对数似然
这是您从 summary(glm.fit) 输出中看到的内容的快速摘要,
df = df_Sat - df_Null 上的空偏差 = 2(LL(饱和模型) - LL(空模型))
残余偏差 = 2(LL(饱和模型) - LL(提议模型)) df = df_Sat - df_Proposed
饱和模型是假设每个数据点都有自己的参数的模型(这意味着您有 n 个参数要估计。)
空模型假设完全“相反”,即为所有数据点假设一个参数,这意味着您只估计 1 个参数。
提议的模型假设您可以使用 p 个参数 + 一个截距项来解释您的数据点,因此您有 p+1 个参数。
如果您的Null Deviance非常小,则意味着 Null 模型很好地解释了数据。同样与您的残余偏差。
真的很小是什么意思?如果您的模型“好”,那么您的偏差约为 Chi^2,具有 (df_sat - df_model) 自由度。
如果您想将 Null 模型与您的 Proposed 模型进行比较,那么您可以查看
(Null Deviance - Residual Deviance)大约 Chi^2 与df Proposed - df Null = (n-(p+1))-(n-1)=p
你直接从R给出的结果吗?它们看起来有点奇怪,因为通常您应该看到 Null 上报告的自由度总是高于 Residual 上报告的自由度。这是因为,零偏差 df = 饱和 df - 零 df = n-1 残余偏差 df = 饱和 df - 提议的 df = n-(p+1)
零偏差显示模型预测响应的好坏,只有截距。
残余偏差显示了在包含预测变量时模型预测响应的好坏。从您的示例中可以看出,当添加 22 个预测变量时,偏差增加了 3443.3(注意:自由度 = 观察数 - 预测变量数)。这种偏差的增加是严重缺乏拟合的证据。
我们还可以使用残差来检验零假设是否为真(即逻辑回归模型为数据提供了充分的拟合)。这是可能的,因为偏差是由特定自由度的卡方值给出的。为了测试显着性,我们可以使用 R 中的以下公式找出相关的 p 值:
p-value = 1 - pchisq(deviance, degrees of freedom)
使用上述剩余偏差和 DF 值,您会得到一个近似为零的 p 值,表明存在明显缺乏支持原假设的证据。
> 1 - pchisq(4589.4, 1099)
[1] 0
虽然这里给出的两个答案都是正确的(并且是非常有用的资源),但从线性回归分析简介(Montgomery,Peck,Vining,5E)的第 432 页开始,给出的一般经验法则好像