机器算法验证 - 如果可变核宽度通常有利于核回归，为什么它们通常不适合核密度估计？ - 吾爱随笔录

如果可变核宽度通常有利于核回归，为什么它们通常不适合核密度估计？

机器算法验证非参数平滑内核平滑黄土

2022-02-04 13:13:07

这个问题是由其他地方的讨论引起的。

变量内核通常用于局部回归。例如，loess 被广泛使用并且作为回归平滑器效果很好，并且基于适应数据稀疏性的可变宽度内核。

另一方面，可变核通常被认为会导致核密度估计中的估计器不佳（参见Terrell 和 Scott，1992 年）。

是否有一个直观的原因为什么它们可以很好地用于回归但不能用于密度估计？

2个回答

这里似乎有两个不同的问题，我将尝试拆分：

1) KS（核平滑）与 KDE（核密度估计）有何不同？好吧，假设我有一个估计器/平滑器/插值器

est( xi, fi -> gridj, estj )

并且碰巧知道xi处的“真实”密度f（）。然后运行 est( x, densityf ) 必须给出密度f（）的估计值：一个KDE。很可能 KS 和 KDE 的评估方式不同——不同的平滑度标准、不同的规范——但我没有看到根本的区别。我错过了什么？

2）维度如何直观地影响估计或平滑？这是一个玩具示例，只是为了帮助直觉。考虑一个均匀网格中包含 N=10000 个点的框，以及其中包含 W=64 个点的窗口，一条线或正方形或立方体：

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

这里的“边比”是窗口边/盒子边，“dist to win”是盒子中随机点到随机放置窗口的平均距离的粗略估计。

这有任何意义吗？（图片或小程序真的很有帮助：有人吗？）

这个想法是固定大小的盒子内的固定大小的窗口与盒子的其余部分的接近度非常不同，在 1d 2d 3d 4d 中。这是一个统一的网格；也许对维度的强烈依赖会延续到其他分布，也许不会。无论如何，它看起来像是一种强烈的一般效应，是维度诅咒的一个方面。

核密度估计意味着在局部（模糊）窗口上进行积分，而核平滑意味着在局部（模糊）窗口上进行平均。

内核平滑： $\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$ .

核密度估计： $\rho(x) \propto \sum K(||x-x_i||)$ .

这些怎么一样？

考虑一个布尔值函数的样本，即包含“真样本”（每个都有单位值）和“假样本”（每个都有零值）的集合。假设整体样本密度是恒定的（如网格），该函数的局部平均值与真值子集的局部（部分）密度成正比。（错误样本允许我们不断地忽略平滑方程的分母，同时将零项添加到总和中，以便将其简化为密度估计方程。）

同样，如果您的样本在布尔栅格上表示为稀疏元素，您可以通过对栅格应用模糊过滤器来估计它们的密度。

这些有什么不同？

直观地说，您可能期望平滑算法的选择取决于样本测量是否包含显着的测量误差。

在一种极端情况下（无噪音），您只需在样本位置的确切已知值之间进行插值。比如说，通过 Delaunay 三角剖分（使用双线性分段插值）。

密度估计类似于相反的极端，它完全是噪声，因为孤立的样本没有伴随该点的密度值的测量。（所以没有什么可以简单地插值。您可以考虑测量 Voronoi 图单元区域，但平滑/去噪仍然很重要..）

关键是，尽管有相似之处，但它们是根本不同的问题，因此不同的方法可能是最佳的。

其它你可能感兴趣的问题

上一篇贝叶斯模型中交叉验证的稳定性下一篇分类变量在惩罚回归中的标准化是否不同？