自适应核密度估计器?

机器算法验证 克德 k-最近邻
2022-03-24 09:27:24

任何人都可以报告他们使用自适应内核密度估计器的经验吗?
(有很多同义词:adaptive | variable | variable-width, KDE | histogram | interpolator ...)

可变核密度估计 说“我们在样本空间的不同区域改变核的宽度。有两种方法......”实际上,更多:某个半径内的邻居,KNN 最近邻居(K 通常是固定的),Kd 树,多重网格...
当然,没有一种方法可以做所有事情,但自适应方法看起来很有吸引力。
例如,请参阅 有限元方法中自适应 2d 网格的精美图片。

我想听听哪些对真实数据有效/哪些无效,尤其是 2d 或 3d 中 >= 100k 的分散数据点。

11 月 2 日添加:这里是“块状”密度(分段 x^2 * y^2)、最近邻估计和带斯科特因子的高斯 KDE 的图。虽然一 (1) 个示例不能证明任何事情,但它确实表明 NN 可以相当好地适应陡峭的山丘(并且,使用 KD 树,在 2d、3d 中速度很快......) 替代文字

3个回答

文章 * DG Terrell;DW 斯科特 (1992)。“可变核密度估计”。Annals of Statistics 20: 1236–1265.* 在您自己引用的维基百科文章末尾引用明确指出,除非观察空间非常稀疏,否则建议基于全局均方根误差(本地和全局)对于高斯分布随机变量:(通过理论论证)他们引用了是样本大小)和(通过自举结果)n450np4p是维数)作为可变内核方法与固定宽度方法竞争的设置(从您的问题来看,您不在这些设置中)。

这些结果背后的直觉是,如果您不是在非常稀疏的设置中,那么局部密度的变化不足以使偏差增益超过效率损失(因此可变宽度内核的 AMISE 相对于固定宽度的 AMISE)。此外,考虑到您拥有的大样本量(和小尺寸),固定宽度的内核已经非常局部,从而减少了任何潜在的偏差收益。

Loess/lowess 基本上是一种可变 KDE 方法,内核的宽度由最近邻方法设置。我发现它工作得很好,当数据点的密度显着变化时,肯定比任何固定宽度的模型要好得多。

使用 KDE 和多维数据需要注意的一件事是维度灾难。在其他条件相同的情况下,p ~ 10 时设定半径内的点比 p ~ 2 时要少得多。如果您只有 3d 数据,这对您来说可能不是问题,但请记住这一点。