使用样条、平滑样条和高斯过程仿真器有哪些优点/缺点?

机器算法验证 插值 样条
2022-02-14 10:02:01

我有兴趣学习(和实施)多项式插值的替代方法。

但是,我很难很好地描述这些方法的工作原理、它们之间的关系以及它们的比较方式。

我希望您能就这些方法或替代方案有用的优点/缺点/条件提供意见,但对文本、幻灯片或播客的一些好的参考就足够了。

2个回答

基本 OLS 回归是将函数拟合到一组数据的非常好的技术。的整个可能范围内恒定的直线这可能不适用于特定情况。例如,数据有时会显示出曲线关系。这可以通过将回归到来解决。不同的变换是可能的。之间的关系单调的但不断减小的情况下,对数变换XYXf(X)XY可以使用。另一种流行的选择是使用多项式,其中通过将提高到一系列幂(例如等)来形成新项。该策略易于实施,您可以将拟合解释为告诉您数据中存在多少“弯曲”(其中弯曲的数量等于所需的最高功率减去 1)。 XX2X3

然而,基于对数或协变量指数的回归只有当这是真实关系的确切性质时才会最佳拟合。之间存在与这些变换提供的可能性不同的曲线关系是很合理的。因此,我们提出了另外两种策略。第一种方法是loess,这是在移动窗口上计算的一系列加权线性回归。这种方法较旧,更适合探索性数据分析XY

另一种方法是使用样条。最简单的是,样条曲线是一个新术语,仅适用于范围的一部分例如,的范围可能从 0 到 1,而样条项的范围可能仅从 0.7 到 1。在这种情况下,0.7 是一个简单的线性样条项可以这样计算: 并将添加到您的模型中,除了原始XX

Xspline={0if X.7X.7if X>.7

X学期。拟合模型将显示在 0.7 处的急剧中断,直线从 0 到 0.7,并且该直线以从 0.7 到 1 的不同斜率继续。但是,样条项不必是线性的。具体而言,已确定三次样条特别有用(即)。尖锐的休息也不需要在那里。已经开发了约束拟合参数的算法,使得一阶和二阶导数在节点处匹配,这使得节点无法在输出中检测到。所有这一切的最终结果是,在选择的位置(软件可以为您确定)只需几个结(通常 3-5 个)就可以复制几乎任何Xspline3曲线。此外,自由度计算正确,因此您可以相信结果,但当您首先查看数据然后决定拟合平方项时,这是不正确的,因为您看到了弯曲。此外,所有这些只是基本线性模型的另一个(尽管更复杂)版本。因此,我们使用线性模型获得的所有东西(例如,预测、残差、置信带、测试等)都是如此。这些都是实质性的优势。

我所知道的对这些主题的最简单介绍是:

Cosma Shalizi 在他的讲座课程Advanced Data Analysis from an Elementary Point of View的在线笔记在这个主题上非常好,从插值和回归是同一问题的两种方法的角度来看问题。我会特别提请您注意有关平滑方法样条的章节。