渐近均方积分平方误差在核密度估计中有什么实际应用?

机器算法验证 分布 数理统计 估计 非参数 内核平滑
2022-03-13 14:35:48

介绍

一段时间以来,我一直在努力理解如何将理论结果应用于实践。幸运的是,在大多数情况下,理论与实践之间的联系并不难找到,例如:

  • 您可以直接使用理论结果进行计算。
  • 您实际上无法找到解决方案,但您至少有一个上限或下限,可以表明您的实际解决方案有多好。
  • 通过观察理论公式,您可以做出“相似”的东西,并希望具有相似的性能
  • 一般情况只是理论上的,但在特殊情况下可以直接应用。

好吧,这还不是全部,但我不会尝试列出统计理论如何有用的完整列表。直到现在,我一直至少成功地掌握了如何将理论应用于实践的想法。

然而,现在看来我偶然发现了一些我看不到它可能如何应用的东西。

我正在研究一些平滑方法,其中(非参数)内核平滑,如Wikipedia上所述,并发现有一个优化它的理论解决方案AMISE以及带宽。hAMISE但是,在我正在阅读的笔记以及维基百科页面中,我都无法找到任何实际应用。

问题

AMISE及其最佳带宽是否有任何实际应用?

发现实际上有一个应用程序会非常有动力,所以我希望它可以实现!

1个回答

AMISE 允许人们获得未知密度的最佳带宽的表达式。不幸的是,表达式是根据的导数。然而,可以推导出一个类似的表达式,给出这些导数的内核估计的最佳带宽。的更高导数表示等等。fff

这似乎是一连串毫无意义的理论。但巧妙的是,对于一些足够高阶的导数,您可以假设是正常的。然后,您可以通过级别返回以找到的带宽。事实证明,如果足够平滑并且使用了足够多的迭代级别(通常只需要 2 或 3 级),这非常有效,并且几乎没有任何损失。fff

实际结果是一种通用且相当稳健的带宽选择方法。最流行的版本是 Sheather-Jones 插件方法,它在多个软件包中实现。在 R 中,您可以使用 Sheather-Jones 方法获得密度估计:

density(x, bw="SJ")

这通常比默认带宽提供更好的结果。