多项式回归中残差的信息

计算科学 统计数据
2021-11-27 03:57:17

我有两个精确的物理特性(无噪音)。如果我执行任何次数的多项式回归,所有系数都具有统计显着性。问题是残差总是“正弦”的。对我来说,这可能意味着多项式不是适合的函数,但到目前为止我还没有找到更好的函数。

残差的这种系统趋势是否表明我遗漏了什么?

1个回答

这可能是一个很长的答案,但请坚持下去。这是一个很好的问题,我认为很多人在他们的职业生涯中都曾绊倒过一次。

你所看到的并不少见。事实上,这是意料之中的。顺便说一句,当数据中无论如何都没有随机性时,对系数使用显着性检验可能不是非常合适。我们在不适合的地方使用回归模型,然后应用基于统计测试的方法似乎很自然。但这里没有随机性。

让我们看一个例子来理解发生了什么。我将在 MATLAB 中使用我自己的一些工具来完成。尝试通过从 0 到 1 采样 101 个统一数据点来拟合指数函数。我选择函数的好处是它的系列是已知的并且很容易写下来。

X = 0:.01:1;
Y = exp(X);

根本没有错误。所以拟合中的残差将纯粹是缺乏拟合。

mdl = polyn2sympoly(polyfitn(X,Y,'constant, x'));
P = polyn2sympoly(mdl)
P =
    0.874119292489012 + 1.69114271520557*x

现在一阶截断的泰勒级数模型将是简单的 1+x。但是通过这些点的一阶线性回归模型将在曲线上方和下方丢失。事实上,它会倾向于在 2 个点上穿过曲线,并且残差看起来会是相当二次的。因为我们知道实际的泰勒级数,所以残差为 y-yhat 将是......

(1 + x + x^2/2 + x^3/6) - P
ans =
    0.125880707510988 - 0.691142715205567*x + 0.5*x^2 + 0.166666666666667*x^3

因此,一般而言,残差将是一个倾向于由最高阶截断项(在本例中为二次项)支配的函数。这并不意味着与泰勒级数相比,常数项和线性项得到了准确和正确的估计。如果事实如此,他们不会。残差图应该清楚地说明这一点。 在此处输入图像描述 跳到更高阶的模型,这里是一个四阶多项式模型。

mdl = polyfitn(X,Y,'常数, x,x^2,x^3,x^4'); P = polyn2sympoly(mdl) P = 1.00004767172716 + 0.998491471851398*x + 0.510486867080189*x^2 + 0.139707694443945*x^3 + 0.0694961565648233*x^4

您可以看到低阶系数现在开始看起来像泰勒级数中的已知值,顺便说一句,所有这些系数都将非常重要。我希望它们会如此,因为泰勒级数没有零系数。因此,如果我查看参数系数与其近似标准误差的比率,我会得到大得惊人的数字。

mdl.Coefficients./mdl.ParameterStd
ans =
  119272.343263854  8504.47662299035  1061.5504181253  192.89918511997  193.456498197328

再次,查看残差图。 在此处输入图像描述 如果这看起来是模糊的正弦曲线,那就不足为奇了。同样,对于四阶模型,我希望残差曲线以 5 个点穿过 x 轴。通常,n 阶多项式模型的 n+1 个点。它必须看起来是模糊的正弦曲线!

我应该做些不同的事情吗?我想是这样。虽然将多项式模型拟合到曲线有一些扭曲的意义,但多项式很少是这些任务的好选择。他们往往有数字问题。如果您不小心,高阶模型往往会发疯。当您拥有基本准确的数据时,低阶模型根本不够准确。

那么什么时候使用多项式回归模型是个好主意呢?多项式确实有其用途。如果您只需要在低阶模型足够准确的局部区域中封装数据的基本行为,那么低阶多项式模型就很好。当您的数据非常嘈杂以至于您无法估计超过几个术语时,它们最有意义。人们往往最终会转向更高阶的模型。毕竟,任何表现良好的函数都会有一个序列表示,所以某个阶的多项式模型应该就足够了!高阶多项式在拟合、准确评估和外推方面存在很多问题。他们甚至有我所说的“内插”问题,我们在数据域内看到大的振荡或振铃。

更好的模型选择通常是类似样条。使用插值样条、平滑样条或回归样条。确切的选择应该取决于您对该模型的目标以及您对该功能的了解。是否有任何噪音需要消除?如果是这样,那么您可能需要平滑或回归样条。你能承受在样条曲线上有很多结,而且根本不能承受任何残余误差吗?那么插值样条曲线可以说是正确的。我遇到过这样的情况,即使已知数据中有噪声,客户也无法修改特定高度弯曲区域中的曲线形状,需要仔细确定该样条曲线的形状。在这种情况下,尽管存在已知噪声,但仍指示插值样条。

回归样条拟合指数 5 节产生相当小的残差,但请注意,残差仍然具有正弦形状。不过,请始终查看 Y 轴缩放比例。限制为 +/- 0.000015,因此相当严格。垂直条显示等距的结位置。

在此处输入图像描述

同样,虽然残差仍然显示出一种模式,但如果它们有任何低阶形状,回归模型可以将其移除,从而减少误差的平方和!而且由于数据中没有噪声,我不能期望看到像我们在噪声数据的传统回归模型中看到的那样看起来很嘈杂的残差图。

所以你看到的正是我期望看到的。事后看来,这是残差在逻辑上看起来的唯一方式。