自然样条是指在边界处是线性的回归样条(即X 小于最小节点或大于最大节点的区域)。
我知道,对于平滑样条曲线,最小化相关目标函数的函数是自然三次样条曲线的缩小版本,每个观测值都有结。
但是对于通过最小二乘法(或者可能是套索/岭回归)估计的具有较少结数的自然样条曲线......样条曲线是否必须是三次曲线?或者(如果目标是在机器学习环境中预测目标变量),是否应该通过交叉验证而不是总是使用三次来选择度数?
自然样条是指在边界处是线性的回归样条(即X 小于最小节点或大于最大节点的区域)。
我知道,对于平滑样条曲线,最小化相关目标函数的函数是自然三次样条曲线的缩小版本,每个观测值都有结。
但是对于通过最小二乘法(或者可能是套索/岭回归)估计的具有较少结数的自然样条曲线......样条曲线是否必须是三次曲线?或者(如果目标是在机器学习环境中预测目标变量),是否应该通过交叉验证而不是总是使用三次来选择度数?
这可能是虎头蛇尾的......我认为如果我们想考虑结果拟合是平滑的,这有点转换。它基于以下事实,即平滑函数通常指的是“两次可微”。用 R引用 Faraway 的线性模型:“基函数是连续的,并且在每个节点的一阶和二阶导数中也是连续的。这个属性确保了拟合的平滑度。 ”。
举个例子:这样的约定立即处理了泰勒定理,这样如果是一个平滑函数,则存在一个使得。高阶微分有时确实很重要,但通常的惯例是检查前两个并继续。
此外,根据 Ramsay 和 Silverman 的关于功能数据分析的开创性著作的基本原理,函数在处的二阶导数通常称为它在处的曲率和它的平方积分(即积分平方二阶导数) : ) 可以看作是函数平滑度的自然度量(或粗糙度取决于我们如何看待这个)。在处理曲线/函数数据时,这种“足够平滑,因为存在二阶导数”的工作假设几乎是普遍的(例如 Horváth 和 Kokoszka 的Inference for Functional Data with Applications和 Ferraty & Vieu'制定类似的约定);再次是这个工作假设,而不是硬性要求。不言而喻,如果我们使用作为我们的分析单位,我们假设存在等等。作为旁注:二阶导数的存在与函数的各向同性相关(例如,参见 Switzer (1976) Geometrical measure of the smoothness of random functions)这是假设数据位于连续体上的合理假设(例如具有空间依赖性)。
让我注意到,没有理由不能使用更高或更低阶的导数连续性要求。例如,在数据量不足的情况下,我们可能会选择使用分段线性插值法。最后,平滑程度确实是根据我们选择的度量使用交叉验证方法(通常更准确地说是广义交叉验证)来选择的(例如,流行的函数mgcv::gam
在拟合平滑样条时正是这样做的,Yao et al. (2005)纵向数据的函数线性回归分析在选择内核平滑器的带宽等时也是如此)
人们可能会发现以下 Math.SE 线程:函数的二阶导数与曲线平滑度有关吗?也很有见地,不幸的是它不包含明确的答案。
那么,“为什么自然样条曲线几乎总是三次? ”因为假设存在二阶导数并因此需要三次拟合,对于大多数情况来说是一个很好的约定。☺