[在后面对 LOESS 的讨论中,我试图描述 LOWESS 及其在 R 函数中的实现,lowess并概述对函数所做的一些修改loess(尽管省略了一些似乎与您的问题不直接相关的细节) ).]
特别是:使用平滑样条,我们如何选择断点的数量和位置
你没有;每个数据点都有一个;平滑参数是所有正则化的来源。如果你想要更少的结,你说的是惩罚样条。
以及样条的多项式次数?
它smooth.spline总是立方的,它在帮助中这么说。
如果您指的是 LOESS 中的局部拟合程度(不是样条曲线),请首先查看 Cleveland [1](描述 LOWESS,LOESS 是基于此)——这几乎表明 0 不够灵活(“*在实际情况下,局部线性的假设比局部恒定性更好”)并且相对于较小的灵活性增益而言,2更难计算,并且建议将度数选择为1作为实践中的最佳折衷方案。
Cleveland [1] 中的建议(有关选择各种参数的更多详细信息在论文中给出)是 R 函数中的默认值lowess(例如 degree 1 和 span 2/3)。
'loess' 的帮助说它使用不同的默认值(度数为 2,跨度为 3/4)。
函数中的带宽参数控制什么?
正如 Bill Cleveland[1] 所描述的,LOESS 应用一个三角形权重函数 ( ) 对点进行局部加权。W(x)=((1−|x|3)+)3
W被缩放,使得第个最近邻是第一个获得零权重的,其中并且是跨度参数。如果有多个预测变量,则会对其进行修改(请参阅 帮助)。rr=round(fn)floess
该loess函数允许您指定等效的目标参数数量而不是跨度。
此外,LOESS 如何选择异常值进行移除?
同样,如克利夫兰 [1] 中所述,LOWESS 会降低具有大残差的观测值,而不是专门选择和删除它们。然而,一些观察可能会得到零权重,这意味着一些被有效地去除了。具体来说,在初始拟合之后,LOWESS 引入了基于初始拟合残差的稳健性权重。鲁棒性权重使用二元函数();任何绝对残差超过中值绝对残差六倍的观测值的权重为零,但比该值更近的点的权重仍会减小;例如,绝对残差为中值绝对残差 3.25 倍的点的权重约为一半。B(x)=((1−x2)+)2
这个减权过程是迭代的(也就是说,使用这些权重从拟合中重新计算残差,然后依次重新计算鲁棒性权重,直到收敛)。请注意,和都可以降低给定观察值的权重。WB
实现的帮助是loess指使用双权函数重新降序 M 估计,但这可能只是用作描述上述方案的简要方式,而不是做任何不同的事情。
[1] 克利夫兰,威廉 S. (1979)。
“稳健的局部加权回归和平滑散点图”。
美国统计协会杂志。74 (368): 829–836。