我有一个普遍的问题。最近我刚刚学习了基扩展和正则化。有几种有趣的技术,包括:三次样条、自然样条、b 样条和平滑样条。
问题是,与用户必须选择节点的“典型”三次和自然样条相比,平滑样条的优点和缺点(如果有的话)是什么?
好吧,一般来说,在没有真正问题的背景下问人们哪种方法更好是愚蠢的。因此,我只是问,根据您的经验,哪个更好?
我能看到的优点之一是:平滑样条技术避免选择结。
我有一个普遍的问题。最近我刚刚学习了基扩展和正则化。有几种有趣的技术,包括:三次样条、自然样条、b 样条和平滑样条。
问题是,与用户必须选择节点的“典型”三次和自然样条相比,平滑样条的优点和缺点(如果有的话)是什么?
好吧,一般来说,在没有真正问题的背景下问人们哪种方法更好是愚蠢的。因此,我只是问,根据您的经验,哪个更好?
我能看到的优点之一是:平滑样条技术避免选择结。
样条的术语可能会令人困惑(至少我是这样认为的),例如,人们在使用“三次样条”时的确切含义取决于三次样条的类型;例如,我们可以同时拥有三次平滑样条和三次(惩罚)回归样条。
我在下面的草图摘自 Wood (2017) 的第 5.1.2 和 5.2 节。
插值样条说将设置 ,因为它通过由三次多项式部分组成的函数对观测值
三次平滑样条旨在平衡对数据的拟合与产生平滑函数;目的不是对插值样条曲线中产生的数据进行插值。三次平滑样条不是设置,而是作为自由参数进行估计以最小化 (Wood, 2017)
其中第一部分是对数据拟合的度量,而第二部分是对摆动的惩罚(积分将样条的二阶导数平方和作为曲率或摆动的量度,曲线的速度有多快改变坡度)。我们可以将摆动视为复杂性,因此该函数包括对过于复杂的平滑的惩罚。
可以证明,所有可能函数是最小化上述标准的函数(证明在 Wood, 2017, section 5.1.2 pp. 198 中给出)。
与插值样条一样,三次平滑样条具有位于每个观察对和的节点。前面我提到过平滑样条有自由参数;参数和数据一样多。然而,自由度时所暗示的要平滑得多(Wood 2017)。
这是平滑样条曲线的主要缺点。您必须估计与您拥有的数据一样多的参数,但是由于对过于复杂(摆动)拟合的惩罚,这些参数中的许多参数的效果通常会很低。
平衡这一点的事实是,平滑样条中的节点的选择得到了照顾,因为没有选择。
转到惩罚回归样条设置,我们现在可以选择放置结的位置,但我们可以选择使用多少个结。我们如何确定这是否是一个有用的权衡,即使我们必须决定放置多少节以及在哪里放置它们,用减少的节数来拟合样条曲线是有益的?
在惩罚回归样条中,与其考虑节点本身,不如将样条视为由基函数组成;这些是小函数,每个函数都有一个系数,其线性组合给出了给定的样条值。现在的选择是使用多少个基函数来对响应进行建模,其中的数量远小于数据的数量。这种选择背后的理论有点限制或仅限于估计值的特殊情况或方法,但一般的想法是所需的基函数的数量仅随着为了达到接近平滑样条曲线所代表的最佳性能(总结自 Wood 2017)。
通常,在三次回归样条的数据中实际分布的节点对拟合样条没有太大影响。典型的选择是将节点均匀地放置在的区间上,或者将节点放置在分布的分位数上。范围内的观察分布非常不均匀,那么将节点均匀地放置在上会很浪费,这样您就可以将它们集中在您有数据的地方。或者,以某种方式转换可能会使分布均匀,从而可以再次均匀地放置结。
当拟合高维样条模型时,比如两个变量的样条,如果对被限制在和跨越的空间的某个区域,则节点放置问题会更大;如果数据不是来源于大部分空间,那么均匀放置节点将导致许多节点远离数据的支持。这是浪费。可用的处理策略,例如空间填充算法,或使用 P 样条和基于稀疏导数的惩罚,即使在不均匀分布的数据中也可以进行有效估计(例如 Wood 2016)
Wood, SN 2016。具有基于导数的惩罚和不均匀分布数据的张量积平滑的 P 样条。统计。计算。1-5。doi:10.1007/s11222-016-9666-x(开放存取)
Wood, SN 2017。广义加法模型:R 简介,第二版,CRC 出版社。