外行对 Sheather-Jones 带宽选择方法的解释?

机器算法验证 内核平滑 密度估计
2022-04-03 04:53:36

我目前正在写我的生物信息学论文。我正在做的其中一部分涉及对单变量数据执行 KDE。我正在使用 R,并且在函数文档中(对于密度函数)它说通常建议使用 Sheather-Jones 带宽选择方法。在尝试了几种不同的方法后,我确实注意到 SJ 给出了最好的结果。我还在网上(包括在 CrossValidated 上)看到人们通常说这是推荐的方法。

在审阅我的论文后,我的一位委员会成员要求我简要描述该方法。老实说,我对它的实际作用一无所知。我尝试阅读他们的论文,但不幸的是,摘要和介绍都没有任何简单的外行人对他们的方法实际作用的解释。我在网上找不到太多信息。我不是一个容易将我的问题“外包”给在线社区的人,我通常会尝试自己解决所有问题,但这似乎超出了我的范围,我真的需要一些帮助。

有人对 SJ 带宽选择的工作原理或为什么它被认为是最受欢迎的有一个非常简短的 1-2 句解释吗?谢谢

1个回答

假设它确实是 Sheather 和 Jones (1991) JRSS-B 论文 [1] 中的首选带宽估计器(特别是),这里有一个简短的讨论(根据要求),但是对高度技术性主题的简短讨论必然有点模糊和神秘。h^2S

找到有效带宽估计器的基本问题归结为找到的良好估计(其中),即积分平方二阶导数要估计的密度——即渐近最优带宽取决于我们希望估计的事物的二阶导数!R(f)R(g)=g2(x)dx

在这里,特别是在最小渐近均方积分平方误差 (AMISE) 的意义上...关于哪个,请参见此处

为什么积分平方二阶导数很重要?实际上,它测量了曲线在您正在查看的范围内的“摆动”程度。如果您有一条非常摆动的曲线,那么您将无法在宽带宽的情况下对其进行良好估计,因为您将平均处理一堆摆动而不是跟随它们。如果您有一条非常直的曲线,那么拥有更宽的带宽是有意义的(因为您可以通过包含更多数据来减少估计中的噪声)。

许多带宽估计器(反过来)使用基于内核的估计。R(f)

Sheather 和 Jones 在他们对的估计中包含了一个之前被忽略的偏差项。这导致估计(这里忽略了很多细节)。R(f)R(f)

如何总结这一切?这是基于内核的最佳带宽估计的改进版本,并不是说这可能有很大帮助。

至于它为什么受欢迎(我不会就它是否最受欢迎,因为它似乎无法可靠地评估)进行无意义的讨论摘要给出了一个非常合理的理由:

模拟中平滑密度的可靠良好性能 [...] 在现有文献中首屈一指

即它(显然)在实践中适用于相当广泛的案例。

[不出所料,在过去的 25 年中进一步提出了改进建议,但这种带宽估计器仍然很受欢迎。]

[1] SJ 谢瑟和 MC 琼斯。(1991 年)
“用于核密度估计的可靠的基于数据的带宽选择方法”。
皇家统计学会杂志。B 系列,53 (3) 页 683-690