带有分类变量的 GAM - 解释

机器算法验证 分类数据 解释 广义加法模型 毫克CV
2022-04-01 01:35:08

我想用 GAM 来分析我的实验数据。在我的实验中,参与者基本上玩了 40 个实验年的游戏。我总共有 6 种不同的条件,并且我有一个主题间设计:一名参与者只经历一种条件。

我想分析一个变量,它是参与者年度决策的输出。我想展示的是:

  1. 在所有条件下,年份都会对这个输出变量产生影响。
  2. 这个输出变量在 40 个实验年的路径在 6 个条件下显着不同。

为此,我运行以下模型并得到以下结果:

在此处输入图像描述

Abbr 是我的分类变量,有 6 个级别。我的问题主要是关于解释的。表格的“平滑项的近似意义”部分告诉我,Year 在所有条件下对 pr 都有显着影响。这是对的吗?

“参数系数”部分告诉我什么?如何比较这 6 个条件并判断路径明显不同?

这是 GAM 的情节: 在此处输入图像描述


谢谢你的回复!现在在平滑方面更加清晰。

我尝试做的是测试我的 6 个类别的平滑度彼此之间是否存在显着差异。为此,我关注了您的博客文章,并最终得到了具有以下模型和结果的有序因子,其中 OC 是我的有序分类变量: 在此处输入图像描述

现在,我可以说 F-G1P1 和 F-G5P1 的平滑度之间存在显着差异。当我绘图时,我得到以下信息: 在此处输入图像描述 第一个绘图为我的类别 F(参考类别)提供了平滑,而其他的则是差异平滑我应该如何解释它们?

现在,我想扩展这个分析,在我的 6 个类别之间进行成对比较。为此,我尝试关注这篇文章,但没有成功。对于这些比较,我的所有类别是否都需要具有相同数量的观察值?

1个回答

在因子by变量 Smooth 中,与其他简单平滑一样,平滑的基数受到可识别性约束。如果您只是天真地计算所需维度的基础,并给定 的默认值s(),您将获得 2 个位于平滑度惩罚的零空间中的基础函数:

  1. 一个平坦的水平函数,以及
  2. 一个线性函数

两者都是完全平滑的,因此不会受到平滑度惩罚的惩罚。平面函数与模型截距是一回事。出现可识别性问题是因为您可以将任何值添加到截距(常数)项的估计系数,并从平坦水平基函数的系数中减去相同的值,并通过新模型获得相同的拟合。由于您可以将无限的数字集添加到截距中,因此您拥有无限的模型。

这不好,所以为了缓解这个问题,使用了可识别性约束。有几个这样的约束,但导致良好置信区间覆盖属性的一个是总和为零约束。在协变量的范围内,平滑被约束为总和为零。这意味着它以零为中心,这意味着从平滑的基础上删除了平面函数。

现在,在因子by变量的情况下,因为每个平滑都以零为中心,所以平滑本身并没有简单的方法来控制平均响应水平之间的差异;说来自 condition 的样本F平均具有pr比 condition更大的值G1我们希望样条曲线F相对于 上移一些恒定的量G1这就是参数项,它们来自+ as.factor(Abbr)模型公式中的项。参数项表示指定组与参考组平均值的偏差(在您的情况下,未列出的水平,F)。如果您没有在模型中包含此项,则平滑可能会变得更加摇摆不定,因为它们试图解释组的平均偏移,这不是您想要的。

您可以用于此类模型的另一种主要平滑类型是随机因子平滑基础bs = "fs"此基础/平滑包括分组因子每个级别的截距,因此不需要参数项。

平滑的近似显着性实际上表示所指示的平滑实际上是平坦的零函数的测试。或者换一种说法,线性模型或 GLM 中的系数等于零(即没有影响)是原假设的平滑等价物t或检验。Wald Z有强有力的证据反对您的每个平滑项的零值,这反映在估计的平滑项的强非线性上,并且在 的大部分范围内,平滑项的置信区间不包括 0 Year