多项式展开的最佳基组

机器算法验证 回归 广义线性模型 多项式 泰勒系列
2022-03-22 15:45:49

我想将 x 回归到 y 上:

F(是的)=C1X+C2X2+C3X3

显然,上述简单的泰勒展开不是最理想的,因为系数不会是正交/不相关的。因此,我想使用像 Chebyshev/Legendre/Genegbauer/Hermite 多项式这样的集合来使用正交多项式基展开。另外,我的问题有一个有限域(~[0,50])

我的问题是我将如何选择最适合我的问题的基组?我应该问什么问题来区分基组?

3个回答

这真的取决于你的需求。

然而,对于回归和其他“线性模型”问题(例如 GLM),标准选择是关于观察到的集合的正交多项式X值(通常在回归类型的上下文中称为“正交多项式”)。许多软件包都提供了它们(例如poly,在 R 中提供了这样的基础 - 您提供x和所需的程度)。

也就是说,如果是得到的“x-matrix”(不计算常数列),其中列表示线性、二次等分量,然后=.

像这样:

> x=sort(rnorm(10,6,2))
> P=poly(x,4)
> round(crossprod(P),8)  # round to 8dp
  1 2 3 4
1 1 0 0 0
2 0 1 0 0
3 0 0 1 0
4 0 0 0 1

(如果你适当地规范化它,这个属性会扩展到常量列,但它通常保持原样,所以对角线XX然后会有一个1,1的元素n而不是1.)

对于那组特定的 x 值*,它们看起来像这样:

在此处输入图像描述

与其他选择相比,这些具有许多明显的优势(包括参数估计不相关)。

一些可能对您有用的参考资料:

Sabhash C. Narula (1979),
“正交多项式回归”,
国际统计评论47 :1(四月),第 31-36 页

Kennedy, WJ Jr 和 Gentle, JE (1980),
统计计算,Marcel Dekker。


* 万一有人关心示例中的特定值:

 x
 [1]  4.326638  4.458292  4.459983  4.574794  5.312988  5.380251  7.425735
 [8]  8.601912  9.189405 10.864584

正交多项式,通过构造带有权重函数w(X), 所以正交性只有在引用时才有意义w(X). 选择使用哪些正交多项式高度取决于您的领域。例如,勒让德多项式定义在[-1,1]而拉盖尔多项式定义在[0,).

首先,你必须定义什么是“最好的”。例如,如果您说最好的函数可以最小化最小二乘误差并且仍然是平滑的,那么您最终可能会得到三次样条基础。这完全取决于您的功能以及您对什么是“最佳”的理解。