薄板回归样条曲线 mgcv?

机器算法验证 r 回归 样条 毫克CV
2022-03-21 22:07:41

我在对薄板回归样条的理解上苦苦挣扎。我已经在交叉验证中找到了一个非常有用的答案: mgcv 包中 gam 的平滑方法, 但我仍然有一些问题。

这是相应论文的pdf(Simon Wood,也是R中mgcv-package的作者): https ://pdfs.semanticscholar.org/f1d3/d313a723c9eaeef496244edcfefeae237feb.pdf

在一维情况下,如果我搜索的最小化: 结果是一个三次样条曲线,每次观察都有结。正如我在 Wood (2003) 中所理解的,这是一维薄板样条的特殊情况。如果协变量不再是一维而是更多维,并且应该获得的函数变为:f(x_i, z_i, ...),则结果是薄板样条曲线(对于微分和维数的特定值)。我做对了吗?所以你可以说薄板样条是在一维情况下获得的三次样条的多维模拟?

i=1n(yif(xi))2+λab(f(x))2dx
f(xi,zi,...)

因此,薄板样条曲线是在每个协变量值处具有结的平滑样条曲线。然后为了获得低秩平滑,Wood 进行了特征分解并选择包含大部分方差的前k我的问题是为什么构建低等级平滑器很有用?

降低计算成本?但是要进行特征分解,您仍然需要计算完整的薄板样条基吗?或者是使用惩罚最小二乘法得到估计系数的原因,矩阵逆变成然后k×k而不再是n×n

同样在使用薄板样条作为惩罚回归样条的情况下,存在惩罚,因此函数的平滑度主要由平滑参数(如果k足够高)决定,该参数也适用于整个基础。

或者是减少必须估计的参数数量的原因?

1个回答

正如您所提到的,执行设计矩阵的特征分解的动机确实是为了降低算法的计算成本。拟合样条曲线,特别是在的情况下,是一项计算量非常大的任务 - 在您引用的论文中,Wood 提到的所有算法都具有复杂度。执行特征分解并选择前 k 个特征值不仅将计算成本从降低到,而且还减少了内存开销,因为我们不必保留尽可能多的元素内存中的设计矩阵。这在处理更大的数据集时特别有价值。d>1d>1O(n3)O(n3)O(k3)