我有一个关于广义加法模型的问题。GAM 结果中的偏差解释、GCV 分数和 Scale est. 是什么?这些指标说明了什么?
我如何解释 GAM 结果?
解释的偏差有点像对于平方和作为观测值和拟合值之间差异的度量没有多大意义的模型。相反,在广义模型中,我们使用deviance来衡量这种差异。它是使用模型的似然度计算的,因此对于每个误差分布( /family
中的参数)都有一些不同的数学定义。在估计为 GLM/GAM 的高斯模型的情况下,偏差和残差平方和是等价的。glm()
gam()
偏差模型的定义为:
在哪里是饱和模型的最大似然和是您拟合的模型的最大可能性。饱和模型是每个数据点都有一个参数的模型;鉴于数据,您无法获得比这更高的可能性。是尺度参数。缩放偏差很简单
这些比例偏差在似然比检验中起作用,其中两个模型的比例偏差差异为(卡方分布与自由度和)。
解释的偏差只是将上述表示为当前模型解释的总偏差的比例。
规模估计是,即这是在模型拟合期间估计。对于泊松和二项式家庭/分布,根据定义,但对于其他分布,情况并非如此,包括高斯分布。在高斯情况下,是残差标准误差的 平方。
GCV 分数是 GAM 拟合的最小化广义交叉验证 (GCV) 分数。GCV 用于 R 的mgcv包中的平滑度选择;选择平滑参数以最小化预测误差,其中是未知的,可以使用标准CV或GCV来估计预测误差。这里首选 GCv,因为它可以在没有实际交叉验证(将模型重新拟合到数据子集)的情况下计算,从而节省计算时间/工作量。报告的值是最小化的 GCV 分数(UBRE,无偏风险估计器,显示分数,而不是您正在拟合一个已知的模型),并且您可以使用这些分数有点像 AIC,较小的值表示更好的拟合模型。
使用 GCV 平滑选择拟合的 GAM 可能会出现平滑不足的问题。这可能发生在 GCV 配置文件相对平坦且随机变化可能导致算法收敛到过于摇摆不定的情况下。Simon Wood 和他的同事已经证明,通过 REML(method = "REML"
在gam()
调用中使用)或 ML 进行拟合对于平滑不足的情况更加稳健,但计算成本很高。
以上总结基于 Simon Wood 相当优秀的 GAM 书籍中的描述:
伍德,SN(2006 年)。广义加法模型:R 简介。查普曼和霍尔/CRC。