机器算法验证 - 局部回归和平滑移动平均之间的差异 - 吾爱随笔录

局部回归和平滑移动平均之间的差异

机器算法验证回归数据可视化本地统计

2022-03-03 04:50:41

通常，局部回归（黄土/低地）用于创建平滑图。

假设这些点沿 X 轴是等距的，那么与具有适当窗口大小的简单移动平均线（显然要快得多）相比，使用局部回归有什么优势？

2个回答

一个简单的平滑平均可以解释为具有矩形核的局部线性回归。矩形内核为落在其内核支持范围内的每个点（读取窗口）分配相等的权重（读取重要性）。如果您认为这个假设充分地概括了您的建模假设，那么您没有理由不选择一个简单的移动平均线进行平滑处理。如果您认为这个假设有点过于简单化......请继续阅读。

假设我们看数据 $(y_i,t_i)$ 但实际上发生的事情是 $y_i = y_{\text{true}}(t_i) + \epsilon_i$ 在哪里 $y_{\text{true}}$ 有一些奇怪但平滑的参数形式，并且 $\epsilon \sim N(0,\sigma^2_{\epsilon})$ . 通过平滑，我们尝试估计 $y_{\text{true}}$ .

我们可以继续并在所有数据中拟合模型；就像是： $y = \beta_0 + \beta_1 t + \epsilon$ （或更高次的多项式），但我们怀疑这太严格了。我们有一个隐含的理解，即数据接近一个时间点 $t$ 与价值更相关 $y_{\text{true}}(t)$ 比数据更远 $t$ . 所以我们决定在周围建一个窗口 $t$ ，说 $[t-b, t+b]$ 在哪里 $b$ 是带宽。现在，如果假设是所有点在 $[t-b, t+b]$ 估计同样重要 $y_{\text{true}}(t)$ 那么所有点的权重相同的矩形内核对我们来说是完美的。但也许我们认为“ ......在窗口内一些中心点更重要”并且我们尝试另一个内核）（例如三角形或Epanechnikov），它赋予中心点更高的重要性。或者实际上，我们并不确定开始时的窗口假设，因此我们适合尝试具有无限支持的内核（例如高斯）。( $b$ 总是使用交叉验证来估计）。局部线性回归提供了测试所有这些假设并将其实际纳入我们最终估计的能力 $y_{\text{true}}$ .

最后让我指出，“lowess/loess”正在利用局部加权线性回归来平滑数据，但它们只是使用的一种局部多项式方法（例如，Nadaraya-Watson 估计器，这是此类最早的估计器之一）在半参数回归中。其他模型（例如粗糙度惩罚方法，如样条平滑）也可用；见 AC 戴维森统计模型，章节。10.7 的简洁介绍。

移动平均线是当您使用零度多项式时所得到的 [which] 将 LOESS 变成加权移动平均线。更高的学位会产生不同的答案。

其它你可能感兴趣的问题

上一篇规范链接函数有哪些有用的属性？下一篇与 nlme/lme4 关联的“t 值”