我想将 x 回归到 y 上:
显然,上述简单的泰勒展开不是最理想的,因为系数不会是正交/不相关的。因此,我想使用像 Chebyshev/Legendre/Genegbauer/Hermite 多项式这样的集合来使用正交多项式基展开。另外,我的问题有一个有限域(~[0,50])
我的问题是我将如何选择最适合我的问题的基组?我应该问什么问题来区分基组?
我想将 x 回归到 y 上:
显然,上述简单的泰勒展开不是最理想的,因为系数不会是正交/不相关的。因此,我想使用像 Chebyshev/Legendre/Genegbauer/Hermite 多项式这样的集合来使用正交多项式基展开。另外,我的问题有一个有限域(~[0,50])
我的问题是我将如何选择最适合我的问题的基组?我应该问什么问题来区分基组?
这真的取决于你的需求。
然而,对于回归和其他“线性模型”问题(例如 GLM),标准选择是关于观察到的集合的正交多项式值(通常在回归类型的上下文中称为“正交多项式”)。许多软件包都提供了它们(例如poly
,在 R 中提供了这样的基础 - 您提供x
和所需的程度)。
也就是说,如果是得到的“x-matrix”(不计算常数列),其中列表示线性、二次等分量,然后.
像这样:
> x=sort(rnorm(10,6,2))
> P=poly(x,4)
> round(crossprod(P),8) # round to 8dp
1 2 3 4
1 1 0 0 0
2 0 1 0 0
3 0 0 1 0
4 0 0 0 1
(如果你适当地规范化它,这个属性会扩展到常量列,但它通常保持原样,所以对角线然后会有一个的元素而不是.)
对于那组特定的 x 值*,它们看起来像这样:
与其他选择相比,这些具有许多明显的优势(包括参数估计不相关)。
一些可能对您有用的参考资料:
Sabhash C. Narula (1979),
“正交多项式回归”,
国际统计评论,47 :1(四月),第 31-36 页
Kennedy, WJ Jr 和 Gentle, JE (1980),
统计计算,Marcel Dekker。
* 万一有人关心示例中的特定值:
x
[1] 4.326638 4.458292 4.459983 4.574794 5.312988 5.380251 7.425735
[8] 8.601912 9.189405 10.864584
正交多项式,通过构造带有权重函数, 所以正交性只有在引用时才有意义. 选择使用哪些正交多项式高度取决于您的领域。例如,勒让德多项式定义在而拉盖尔多项式定义在.
首先,你必须定义什么是“最好的”。例如,如果您说最好的函数可以最小化最小二乘误差并且仍然是平滑的,那么您最终可能会得到三次样条基础。这完全取决于您的功能以及您对什么是“最佳”的理解。