机器算法验证 - 黄土和平滑样条的实用描述？ - 吾爱随笔录

黄土和平滑样条的实用描述？

机器算法验证平滑样条

2022-04-18 03:15:45

我大致了解 LOESS 是一个使用样条插值数据的平滑过程。但是，我也知道异常值的去除是 LOESS 的一个大问题。我试图估计一个罕见事件的非线性概率，该事件的曝光我希望采用二次形式（浴缸形危险）。我通过调用在 R 中获得的平滑样条曲线smooth.spline给了我我期望看到的“概率凸起”，但 LOESS 没有。如果异常值被丢弃是有道理的：对于罕见的事件，正例将始终是异常值。

我很好奇这些方法之间有什么区别。特别是：对于平滑样条，我们如何选择断点的数量和位置以及样条的多项式次数？此外，LOESS 如何选择异常值进行移除？函数中的带宽参数控制什么？

1个回答

[在后面对 LOESS 的讨论中，我试图描述 LOWESS 及其在 R 函数中的实现，lowess并概述对函数所做的一些修改loess（尽管省略了一些似乎与您的问题不直接相关的细节） ).]

特别是：使用平滑样条，我们如何选择断点的数量和位置

你没有；每个数据点都有一个；平滑参数是所有正则化的来源。如果你想要更少的结，你说的是惩罚样条。

以及样条的多项式次数？

它smooth.spline总是立方的，它在帮助中这么说。

如果您指的是 LOESS 中的局部拟合程度（不是样条曲线），请首先查看 Cleveland [1]（描述 LOWESS，LOESS 是基于此）——这几乎表明 0 不够灵活（“*在实际情况下，局部线性的假设比局部恒定性更好”）并且相对于较小的灵活性增益而言，2更难计算，并且建议将度数选择为1作为实践中的最佳折衷方案。

Cleveland [1] 中的建议（有关选择各种参数的更多详细信息在论文中给出）是 R 函数中的默认值lowess（例如 degree 1 和 span 2/3）。

'loess' 的帮助说它使用不同的默认值（度数为 2，跨度为 3/4）。

函数中的带宽参数控制什么？

正如 Bill Cleveland[1] 所描述的，LOESS 应用一个三角形权重函数 ( ) 对点进行局部加权。 $W(x)=((1-|x|^3)_+)^3$

$W$ 被缩放，使得第个最近邻是第一个获得零权重的，其中并且是跨度参数。如果有多个预测变量，则会对其进行修改（请参阅帮助）。 $r$ $r = \text{round}(fn)$ $f$ loess

该loess函数允许您指定等效的目标参数数量而不是跨度。

此外，LOESS 如何选择异常值进行移除？

同样，如克利夫兰 [1] 中所述，LOWESS 会降低具有大残差的观测值，而不是专门选择和删除它们。然而，一些观察可能会得到零权重，这意味着一些被有效地去除了。具体来说，在初始拟合之后，LOWESS 引入了基于初始拟合残差的稳健性权重。鲁棒性权重使用二元函数（）；任何绝对残差超过中值绝对残差六倍的观测值的权重为零，但比该值更近的点的权重仍会减小；例如，绝对残差为中值绝对残差 3.25 倍的点的权重约为一半。 $B(x)=((1-x^2)_+)^2$

这个减权过程是迭代的（也就是说，使用这些权重从拟合中重新计算残差，然后依次重新计算鲁棒性权重，直到收敛）。请注意，和都可以降低给定观察值的权重。 $W$ $B$

实现的帮助是loess指使用双权函数重新降序 M 估计，但这可能只是用作描述上述方案的简要方式，而不是做任何不同的事情。

[1] 克利夫兰，威廉 S. (1979)。
“稳健的局部加权回归和平滑散点图”。
美国统计协会杂志。74 (368): 829–836。

其它你可能感兴趣的问题

上一篇R 和 SAS 产生相同的检验统计量，但正态性检验的 p 值不同下一篇一组随机变量的最大值的分布是什么？