假设它确实是 Sheather 和 Jones (1991) JRSS-B 论文 [1] 中的首选带宽估计器(特别是),这里有一个简短的讨论(根据要求),但是对高度技术性主题的简短讨论必然有点模糊和神秘。h^2S
找到有效带宽估计器的基本问题归结为找到的良好估计(其中),即积分平方二阶导数要估计的密度——即渐近最优带宽取决于我们希望估计的事物的二阶导数!†R(f′′)R(g)=∫g2(x)dx
†在这里,特别是在最小渐近均方积分平方误差 (AMISE) 的意义上...关于哪个,请参见此处
为什么积分平方二阶导数很重要?实际上,它测量了曲线在您正在查看的范围内的“摆动”程度。如果您有一条非常摆动的曲线,那么您将无法在宽带宽的情况下对其进行良好估计,因为您将平均处理一堆摆动而不是跟随它们。如果您有一条非常直的曲线,那么拥有更宽的带宽是有意义的(因为您可以通过包含更多数据来减少估计中的噪声)。
许多带宽估计器(反过来)使用基于内核的估计。R(f′′)
Sheather 和 Jones 在他们对的估计中包含了一个之前被忽略的偏差项。这导致估计(这里忽略了很多细节)。R(f′′)R(f′′′)
如何总结这一切?这是基于内核的最佳带宽估计的改进版本,并不是说这可能有很大帮助。
至于它为什么受欢迎(我不会就它是否最受欢迎,因为它似乎无法可靠地评估)进行无意义的讨论,摘要给出了一个非常合理的理由:
模拟中平滑密度的可靠良好性能 [...] 在现有文献中首屈一指
即它(显然)在实践中适用于相当广泛的案例。
[不出所料,在过去的 25 年中进一步提出了改进建议,但这种带宽估计器仍然很受欢迎。]
[1] SJ 谢瑟和 MC 琼斯。(1991 年)
“用于核密度估计的可靠的基于数据的带宽选择方法”。
皇家统计学会杂志。B 系列,53 (3) 页 683-690