样条插值是否被视为非参数模型?

机器算法验证 非参数 术语 样条 定义 插值
2022-02-08 03:10:10

我知道非参数统计和参数统计之间基本区别在参数模型中,我们假设数据遵循一个分布,并使用固定数量的参数将其拟合到该分布上。以 KDE 为例,情况并非如此,因为我们不假设建模的分布具有特定的形状。

我想知道这与一般的插值以及具体的样条插值有何关系。是否所有插值方法都被认为是非参数的,是否存在“混合”方法,样条插值的情况如何?

2个回答

这是一个很好的问题。人们经常会看到被描述为非参数回归模型的平滑回归(例如,样条曲线,还有平滑 GAM、运行线、LOWESS 等) 。

这些模型是非参数的,因为使用它们不涉及报告的数量,例如β^,θ^等(与线性回归、GLM 等相反)。平滑模型是一种非常灵活的方式来表示y以一个或多个为条件x变量,并且不对例如线性、简单整数多项式或类似的函数形式做出先验承诺yx.

另一方面,这些模型参数化的,在数学意义上它们确实涉及参数:样条的数量、样条的函数形式、样条的排列、输入样条的数据的加权函数等。然而,在应用中,这些参数通常没有实质性的兴趣:它们不是研究人员报告的令人兴奋的证据……平滑曲线(连同 CI 和基于观察值与曲线的偏差的模型拟合度量)证据位。这种关于平滑模型背后的实际参数的不可知论的一个动机是不同的平滑算法往往会给出非常相似的结果(参见 Buja, A., Hastie, T., & Tibshirani, R. (1989). Linear Smoothers and Additive Models. The Annals of Statistics , 17(2), 453–510 对几个进行了很好的比较)。

如果我理解您,您的“混合”方法就是所谓的“半参数模型”。Cox 回归是一个高度专业化的例子:基线风险函数依赖于非参数估计量,而解释变量以参数方式估计。GAM(广义加法模型)允许我们决定哪些x变量的影响y我们将使用平滑器进行建模,我们将使用参数规范对其进行建模,并且我们将在单个回归中使用两者进行建模。

严格来说,每个模型在有参数的意义上都是参数化的。当我们谈到“非参数模型”时,我们真正的意思是参数数量可控的模型。

“非参数”的技术定义只是说“无限或未指定”,但在实践中它的意思是“无限或太大,以至于根据参数进行思考变得笨拙和/或无用”。您给出了 KDE 的示例,但是 KDE 是根据采样值计算的,并且样本的数量是有限的,因此样本集在技术上是有限的参数集。

如果每个样条具有有限数量的参数,并且有有限数量的样条,则可以得出参数的总数是有限的,但实际上,该数量可能很大以至于不能将其视为参数。

另一方面,如果样条线的数量足够少,并且样条线中的模型足够简单,则仍可以将其视为参数化的。其他因素是是否有大量具有相同类型参数的模型(即参数具有不同的值,但一个模型的参数与另一个模型的参数相似),以及参数的含义有多直观。

例如,如果您对H2O作为温度的函数,您可能需要单独的冰、水和蒸汽样条。如果您将每个模型建模为相对于温度呈线性,则每个相都有一个膨胀系数(并且可能还有不同的截距),这是一个足够少的参数,可以被视为“参数”。然后,您还将获得其他物质的固体、液体和气体膨胀系数。

在这种情况下,特定物质的少量参数,具有这些类型参数的大量物质,以及参数的直接含义(加热时物质膨胀多少)可能有助于它被认为是参数模型。