评估广义加性模型 (GAM) 中的变量重要性

机器算法验证 回归 解释 推理 广义加法模型
2022-03-15 15:26:08

在线性模型中,很容易评估每个解释变量的重要性。如果满足模型的假设,给定两个解释变量,两者的回归系数都显着不同于零,如果 x_1 的估计回归系数大于估计的回归系数将比换句话说,如果与响应的关联比更强。x1x2x1x2β^1β^2x2x1x2β^1>β^2
我想知道是否有可能评估解释变量在广义加法模型中的重要性。GAM 的输出包含在每个变量的估计函数图中。例如:

在此处输入图像描述

我想知道是否可以通过查看每个图的 y 轴值来评估变量的重要性。假设“年”、“年龄”和“教育”都很重要,并且模型的假设得到满足。
由于的 codomain 大约是的 codomain 大约是,我可以得出结论'age' 比 'year '? 换句话说,我是否可以得出结论,“年龄”与响应的关联性比“年”强?垂直翻译为“年龄” 变化?这会影响解释和变量重要性的评估吗?f^1(year)[10,10]f^2(age)[40,10]

f^1(year)

1个回答

变量重要性没有普遍认可的定义,但通常它意味着模型中的预测变量解释了多少方差。您所描述的并不是真正的传统变量重要性,而是对协变量变化的敏感性。

解释的方差和敏感度不是一回事,而且可能有很大的不同。模型可能对协变量的变化高度敏感,但如果协变量本身的方差较低,则它可能无法解释响应中的太大变化。您可以通过重新调整预测变量以具有单位方差来使方差解释和灵敏度在数值上更好地相关,但概念仍然不同。可以简单地通过重新调整变量来改变灵敏度,而解释的方差对于线性模型中的缩放是不变的。

由于非线性,灵敏度并不是 GAM 的一个明确定义的数字。

mgcv包中,模型项的重要性可以通过 和 报告的\值来衡量然而,重要性又是另一个与重要性略有不同的概念。χ2psummary.gamanova.gam