机器算法验证 - 薄板回归样条曲线 mgcv？ - 吾爱随笔录

我在对薄板回归样条的理解上苦苦挣扎。我已经在交叉验证中找到了一个非常有用的答案： mgcv 包中 gam 的平滑方法，但我仍然有一些问题。

这是相应论文的pdf（Simon Wood，也是R中mgcv-package的作者）： https ://pdfs.semanticscholar.org/f1d3/d313a723c9eaeef496244edcfefeae237feb.pdf

在一维情况下，如果我搜索的最小化：结果是一个三次样条曲线，每次观察都有结。正如我在 Wood (2003) 中所理解的，这是一维薄板样条的特殊情况。如果协变量不再是一维而是更多维，并且应该获得的函数变为：，则结果是薄板样条曲线（对于微分和维数的特定值）。我做对了吗？所以你可以说薄板样条是在一维情况下获得的三次样条的多维模拟？

\sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2} + λ \int_{a}^{b} (f^{″} (x))^{2} d x

$\sum_{i=1}^n (y_i - f(x_i))^2 + \lambda \int_a^b(f''(x))^2\; dx$

f (x_{i}, z_{i}, . . .)

$f(x_i, z_i, ...)$

因此，薄板样条曲线是在每个协变量值处具有结的平滑样条曲线。然后为了获得低秩平滑，Wood 进行了特征分解并选择包含大部分方差的前 $k$ 我的问题是为什么构建低等级平滑器很有用？

降低计算成本？但是要进行特征分解，您仍然需要计算完整的薄板样条基吗？或者是使用惩罚最小二乘法得到估计系数的原因，矩阵逆变成然后 $k \times k$ 而不再是 $n \times n$ ？

同样在使用薄板样条作为惩罚回归样条的情况下，存在惩罚，因此函数的平滑度主要由平滑参数（如果 $k$ 足够高）决定，该参数也适用于整个基础。

或者是减少必须估计的参数数量的原因？