一般加性泊松模型问题中的样条 df 选择

机器算法验证 时间序列 sas 样条 广义加法模型
2022-03-24 12:51:58

我一直在使用 SAS 的泊松通用加法模型拟合一些时间序列数据PROC GAM一般来说,我一直在让它的内置广义交叉验证程序为我的单个样条生成至少一个不错的“起点”,它是时间的非线性函数以及单个参数项(我'我实际上感兴趣)。

到目前为止,它工作得相当顺利,除了我的一个数据集。该数据集中有 132 个观测值,GCV 建议具有 128 个自由度的样条曲线。这似乎……错了。非常错误。更重要的是,它也根本不稳定。我尝试了第二种方法,当参数项的估计停止变化时,使用“估计变化”标准来停止添加自由度,因为如果没有什么不同,为什么还要继续添加控制?

问题是估计根本不稳定。我尝试了以下自由度,如您所见,参数项疯狂地反弹:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

对于这个特定的数据位,我完全不知道我应该使用 df 什么。关于如何选择 df 的任何其他想法?我应该看看样条曲线的重要性吗?

在 df = 10 和 df = 15 之间进行更多查看,看起来 df = 12 是您可以得出的最接近 128 生成的估计值,并且仍处于“合理的自由度”范围内。连同线性项、截距和单参数项,感觉就像一个非常饱和的模型。只选择 12 是否合理?

作为第二次更新,将平滑从 更改spline(t)loess(t)会导致更好的 df 估计 - 我应该切换到黄土平滑吗?

3个回答

正如@M.Berk 所提到的,众所周知,GCV 不平滑,主要是因为该标准对过度拟合的惩罚较弱,这往往会导致 GCV 标准中的最小值非常浅,作为λ,平滑度参数。由于最小值非常浅,因此最佳 GCV 可以发生在很宽的范围内λ估计。此外,GCV 标准作为λ往往有多个最小值,这可能导致您描述的不稳定性。Simon Wood (2011) 在他的图 1 中很好地说明了这一点。

Wood (2011) 还说明,对于用于平滑函数的低到中等级基数,AICc 并没有比 GCV提供太多额外的好处。

相比之下,REML(以及 ML)平滑度选择比 GCV 更强烈地惩罚过拟合,因此具有更明确定义的最优值。这导致更稳定的估计λ并大大降低了平滑不足的风险。

Wood (2011) 描述了快速且稳定的 REML 和 ML 估计程序,他展示了在收敛性方面优于现有的 REML (ML) 方法。这些想法可在 Simon 的R的mgcv包中找到

由于 Wood (2011) 在付费墙后面,我附上了一张类似图像的副本(此处未显示 AICc 结果),该图像取自 Simon 的一组幻灯片,可在他的网站上找到,关于平滑度选择方法{PDF}。该图来自幻灯片 10,如下所示

在此处输入图像描述

这两行分别反映了有强(上)或没有(下)信号的模拟数据。最左边的面板显示了每个模型的实现。其余面板显示 GCV(中间列)和 REML 标准如何随λ对于 10 个数据集,每个数据集都是从真实模型中模拟出来的。在上排的情况下,请注意 GCV 在最优值左侧的平坦程度。这些面板中的地毯图显示了最佳λ对于 10 个实现中的每一个。REML 标准在选择的值中具有更明显的最优值和更小的方差λ.

因此,我会建议 Simon Wood 为他的mgcv包所提倡的方法,即选择足够大的东西作为基础维度,以包含预期之间关系中的灵活性。y=f(x)+ε,但没那么大。然后使用 REML 平滑度选择拟合模型。如果选择的模型自由度接近最初指定的尺寸,则增加基础尺寸并重新安装。

正如@M.Berk 和@BrendenDufault 所提到的,在设置样条基时可能需要一定程度的主观性,即选择适合GAM 的适当基维。但根据我在使用 Wood 方法的一系列 GAM 应用程序中的经验,REML 平滑度选择已经证明是相当稳健的。

Wood, SN (2011)半参数泛化线性模型的快速稳定受限最大似然和边际似然估计J. 皇家统计学会 B 73(第 1 部分),3--6。

我认为你最好的选择是在平滑算法之外。考虑模型简约性。

你提到了这一点,但我相信它必须成为你的主要选择标准。根据所建模过程的病因/因果关系,问问自己有多少“弯曲”似乎是合理的。用语句绘制拟合样条曲线plots=components(clm)并直观地评估拟合。也许高 DF 样条与低 DF 样条讲的故事相似,只是噪音更大。在这种情况下,请选择低 DF 拟合。

毕竟,GAM 模型旨在进行探索。

我自己使用了gcv选项,我想知道它在泊松条件、稀疏数据等下的性能。也许这里应该进行模拟研究。

我输入了以下答案,然后意识到我不知道它是否适用于我没有经验的泊松回归。也许人们可以用一些评论来回答这个问题。


就个人而言,我喜欢 BW Silverman (1985) “非参数回归曲线拟合的样条平滑方法的某些方面(带有讨论)”的建议。(在此处无需订阅即可使用):尝试一系列平滑参数并选择最具视觉吸引力的参数。

正如他在同一篇论文中正确指出的那样,虽然主观方法可能更受欢迎,但仍然需要自动方法。然而,GCV 通常是一个糟糕的选择,因为它有不平滑的趋势。例如,参见 Hurvich 等人 (1998) “使用改进的 Akaike 信息准则在非参数回归中平滑参数选择”(无需订阅即可在此处获得)。在同一篇论文中,他们提出了一个可以缓解您的问题的新标准,即修正后的 AIC,其中包括小样本量修正。您可能会发现AICc 的 Wikipedia 描述比论文更容易理解。Wikipedia 文章还包含来自 Burnham & Anderson 的一些好的建议(即无论样本大小如何,都使用 AICc 而不是 AIC)。

总之,我的建议是,按优先顺序:

  1. 通过视觉评估手动选择平滑参数
  2. 使用更正后的 AIC (AICc) 而不是 GCV
  3. 使用标准 AIC