我有一个有点笼统的问题。最近我一直在学习对数据进行回归分析的各种方法。我已经了解了切比雪夫多项式回归,据我了解,它比多元线性回归准确得多。
问题:为什么不总是使用切比雪夫多项式回归?
提问的动机:在几篇已发表的统计学研究论文中,我看到研究人员对我认为的小型数据集(例如 628 人)使用多元线性回归。
我认为计算时间不是问题,因为许多部门可以使用专门用于数据分析的超级计算机。那么,什么给了?
我有一个有点笼统的问题。最近我一直在学习对数据进行回归分析的各种方法。我已经了解了切比雪夫多项式回归,据我了解,它比多元线性回归准确得多。
问题:为什么不总是使用切比雪夫多项式回归?
提问的动机:在几篇已发表的统计学研究论文中,我看到研究人员对我认为的小型数据集(例如 628 人)使用多元线性回归。
我认为计算时间不是问题,因为许多部门可以使用专门用于数据分析的超级计算机。那么,什么给了?
我认为您误解了切比雪夫多项式的动机。切比雪夫多项式根本不用于统计建模——它们的目的是完全不同的。切比雪夫多项式是经典数值插值问题的一种很好且方便的解决方案。假设我想逼近一个一般函数smooth在具有给定阶多项式的有界区间上。如何选择多项式最小化最大差异在间隔?那么区间上的切比雪夫多项式是最优解的一个很好的近似. 我在 Smyth (1998) 的图 1 中给出了一个简单的例子。Chebyshev 多项式由插值问题定义。它对函数进行插值正好在点,在哪里是多项式的阶数。切比雪夫的想法是选择点,以尽量减少之间的最大差异和在区间。
切比雪夫多项式与统计无关。它们在数值分析中的目的是为平滑但复杂的数学函数推导出行为良好且计算效率高的近似值。它们用于逼近没有代数封闭形式的常用数学函数。如果您深入研究 Rpnorm或qnormR 等函数的数值实现,您很可能会发现隐藏在低级 C 或 Fortran 代码深处某处的切比雪夫多项式。对于函数的日常用户来说,切比雪夫近似是不可见的,因此应该是这样。
线性回归问题完全不同:不同的数据、不同的科学目的和不同的最优函数。在线性回归中,我们有响应值和一个或多个协变量. 我们有数据值,而不是平滑函数。协变量值给定的,我们不能选择它们。我们寻求适应在最小二乘意义上而不是最小二乘意义上。我们正在寻求将信号与噪声分开,而不是重现每个小数点. 我们正在寻找具有科学意义的信号的简约和可解释的表示。
在线性回归上下文中,没有插值 Chebyshev 多项式,因为我们没有观察到在-定义它所必需的值。可以使用标准化 Chebyshev 多项式作为多项式回归的基函数,但是,在最小二乘回归上下文中,任何多项式基都会产生相同的拟合值和残差,只是系数不同。Chebyshev 多项式在这里没有优势 --- 而是定义与观察到的正交的多项式更常见,更有用(请参阅下面引用的我的文章)。
这一切都与数据集大小或计算能力无关。多元线性回归有非常有效的数值实现。像许多统计学家一样,我发现自己每天都在拟合线性回归来解决小到或大至. 这只是在我的电脑上。
参考
史密斯,GK (1998)。多项式逼近。在:生物统计学百科全书,P. Armitage 和 T. Colton (eds.), Wiley, London, pp. 3425-3429。 http://www.statsci.org/smyth/pubs/PolyApprox-Preprint.pdf [非常简短地处理切比雪夫多项式,但具有在一篇文章中处理多项式插值和多项式回归的优势。]
斯图尔特,GW (1996)。数值分析的后记。暹罗,费城。[我最喜欢的多项式插值参考!]