机器算法验证 - 多项式展开的最佳基组 - 吾爱随笔录

机器算法验证回归广义线性模型多项式泰勒系列

2022-03-22 15:45:49

我想将 x 回归到 y 上：

F (是的) = C_{1} X + C_{2} X^{2} + C_{3} X^{3} \dots

$f(y)=c_{1}x+c_{2}x^{2}+c_{3}x^{3}\cdots$

显然，上述简单的泰勒展开不是最理想的，因为系数不会是正交/不相关的。因此，我想使用像 Chebyshev/Legendre/Genegbauer/Hermite 多项式这样的集合来使用正交多项式基展开。另外，我的问题有一个有限域（~[0,50]）

我的问题是我将如何选择最适合我的问题的基组？我应该问什么问题来区分基组？

3个回答

这真的取决于你的需求。

然而，对于回归和其他“线性模型”问题（例如 GLM），标准选择是关于观察到的集合的正交多项式 $x$ 值（通常在回归类型的上下文中称为“正交多项式”）。许多软件包都提供了它们（例如poly，在 R 中提供了这样的基础 - 您提供x和所需的程度）。

也就是说，如果 $P$ 是得到的“x-matrix”（不计算常数列），其中列表示线性、二次等分量，然后 $P^\top P=I$ .

像这样：

> x=sort(rnorm(10,6,2))
> P=poly(x,4)
> round(crossprod(P),8)  # round to 8dp
  1 2 3 4
1 1 0 0 0
2 0 1 0 0
3 0 0 1 0
4 0 0 0 1

（如果你适当地规范化它，这个属性会扩展到常量列，但它通常保持原样，所以对角线 $X^\top X$ 然后会有一个 $1,1$ 的元素 $n$ 而不是 $1$ .)

对于那组特定的 x 值*，它们看起来像这样：

与其他选择相比，这些具有许多明显的优势（包括参数估计不相关）。

一些可能对您有用的参考资料：

Sabhash C. Narula (1979)，
“正交多项式回归”，
国际统计评论，47 :1（四月），第 31-36 页

Kennedy, WJ Jr 和 Gentle, JE (1980)，
统计计算，Marcel Dekker。

* 万一有人关心示例中的特定值：

 x
 [1]  4.326638  4.458292  4.459983  4.574794  5.312988  5.380251  7.425735
 [8]  8.601912  9.189405 10.864584

正交多项式，通过构造带有权重函数 $w(x)$ , 所以正交性只有在引用时才有意义 $w(x)$ . 选择使用哪些正交多项式高度取决于您的领域。例如，勒让德多项式定义在 $[-1,1]$ 而拉盖尔多项式定义在 $[0,\infty)$ .

首先，你必须定义什么是“最好的”。例如，如果您说最好的函数可以最小化最小二乘误差并且仍然是平滑的，那么您最终可能会得到三次样条基础。这完全取决于您的功能以及您对什么是“最佳”的理解。

其它你可能感兴趣的问题