黄土和平滑样条的实用描述?

机器算法验证 平滑 样条
2022-04-18 03:15:45

我大致了解 LOESS 是一个使用样条插值数据的平滑过程。但是,我也知道异常值的去除是 LOESS 的一个大问题。我试图估计一个罕见事件的非线性概率,该事件的曝光我希望采用二次形式(浴缸形危险)。我通过调用在 R 中获得的平滑样条曲线smooth.spline给了我我期望看到的“概率凸起”,但 LOESS 没有。如果异常值被丢弃是有道理的:对于罕见的事件,正例将始终是异常值。

我很好奇这些方法之间有什么区别。特别是:对于平滑样条,我们如何选择断点的数量和位置以及样条的多项式次数?此外,LOESS 如何选择异常值进行移除?函数中的带宽参数控制什么?

1个回答

[在后面对 LOESS 的讨论中,我试图描述 LOWESS 及其在 R 函数中的实现,lowess并概述对函数所做的一些修改loess(尽管省略了一些似乎与您的问题不直接相关的细节) ).]

特别是:使用平滑样条,我们如何选择断点的数量和位置

你没有;每个数据点都有一个;平滑参数是所有正则化的来源。如果你想要更少的结,你说的是惩罚样条。

以及样条的多项式次数?

smooth.spline总是立方的,它在帮助中这么说。

如果您指的是 LOESS 中的局部拟合程度(不是样条曲线),请首先查看 Cleveland [1](描述 LOWESS,LOESS 是基于此)——这几乎表明 0 不够灵活(“*在实际情况下,局部线性的假设比局部恒定性更好”)并且相对于较小的灵活性增益而言,2更难计算,并且建议将度数选择为1作为实践中的最佳折衷方案。

Cleveland [1] 中的建议(有关选择各种参数的更多详细信息在论文中给出)是 R 函数中的默认值lowess(例如 degree 1 和 span 2/3)。

'loess' 的帮助说它使用不同的默认值(度数为 2,跨度为 3/4)。

函数中的带宽参数控制什么?

正如 Bill Cleveland[1] 所描述的,LOESS 应用一个三角形权重函数 ( ) 对点进行局部加权。W(x)=((1|x|3)+)3

W被缩放,使得第个最近邻是第一个获得零权重的,其中并且是跨度参数。如果有多个预测变量,则会对其进行修改(请参阅 帮助)。rr=round(fn)floess

loess函数允许您指定等效的目标参数数量而不是跨度。

此外,LOESS 如何选择异常值进行移除?

同样,如克利夫兰 [1] 中所述,LOWESS 会降低具有大残差的观测值,而不是专门选择和删除它们。然而,一些观察可能会得到零权重,这意味着一些被有效地去除了。具体来说,在初始拟合之后,LOWESS 引入了基于初始拟合残差的稳健性权重。鲁棒性权重使用二元函数();任何绝对残差超过中值绝对残差六倍的观测值的权重为零,但比该值更近的点的权重仍会减小;例如,绝对残差为中值绝对残差 3.25 倍的点的权重约为一半。B(x)=((1x2)+)2

这个减权过程是迭代的(也就是说,使用这些权重从拟合中重新计算残差,然后依次重新计算鲁棒性权重,直到收敛)。请注意,都可以降低给定观察值的权重。WB

实现的帮助是loess指使用双权函数重新降序 M 估计,但这可能只是用作描述上述方案的简要方式,而不是做任何不同的事情。

[1] 克利夫兰,威廉 S. (1979)。
“稳健的局部加权回归和平滑散点图”。
美国统计协会杂志。74 (368): 829–836。