我正在使用 gam (mgcv) 对与连续预测变量加分类预测变量加站点随机效应(站点数量适中)相关的连续响应(土壤养分)建模:
gam(log(y) ~ s(x, bs = "cr", by = fac1) +
fac1 + fac2 + s(site, bs = "re", by = flag),
method = "REML")
数据来自一项景观研究,其中采样具有挑战性(至少可以说),因此样本数量很少,x 值范围的覆盖范围在该范围的上部非常不完整。
如上所述,对 x 使用三次样条会导致拟合函数的形状与 x 值稀疏的那部分空间的默认薄板样条完全不同。然而,两种模型在偏差解释和残差模式方面的结果几乎相同。进行这项研究的同事更喜欢三次样条产生的函数形状,因为他们觉得他们比其他方法更容易将其与理论相协调。但是,我想知道是否:
- 我可以调查其他标准以在模型之间进行选择吗?
- 在使用“cr”或“tp”进行单变量平滑与不完整数据之间进行选择的任何理论上的理由?
更新:替代模型的图