多元模式的计算有效估计

机器算法验证 估计 多元分析 连续数据 模式
2022-02-07 04:18:19

简短版本:估计从连续分布中采样的多维数据集模式的计算效率最高的方法是什么?

长版:我有一个需要估计其模式的数据集。众数与平均值或中位数不一致。下面显示了一个示例,这是一个 2D 示例,但 ND 解决方案会更好: 在此处输入图像描述

目前,我的方法是

  1. 在等于所需模式分辨率的网格上计算核密度估计
  2. 寻找最大的计算点

显然,这会在很多不合理的点上计算 KDE,如果有很多高维度的数据点或者我希望该模式有良好的分辨率,这尤其糟糕。

另一种方法是使用模拟退火、遗传算法等来找到 KDE 中的全局峰值。

问题是是否有更聪明的方法来执行这个计算?

3个回答

如果您的主要兴趣是二维问题,我会说核密度估计是一个不错的选择,因为它具有很好的渐近特性(请注意,我并不是说它是最好的)。参见例如

Parzen, E. (1962)。关于概率密度函数和模式的估计数理统计年鉴33:1065-1076。

de Valpine, P. (2004)。加权后验核密度估计的蒙特卡洛状态空间似然美国统计协会杂志99:523-536。

对于更高维度(4+) ,由于众所周知的难以估计最佳带宽矩阵,这种方法非常慢,请参阅

现在,正如您所提到的,ks包中命令的问题KDE在于,它评估特定网格中的密度,这可能非常有限。如果您使用包来估计带宽矩阵,则可以解决此问题KDE,例如Hscv,使用实现内核密度估计器,然后使用命令优化此功能optim这在下面使用模拟数据和高斯核显示R

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

例如,形状受限的估计器往往更快

Cule, ML, Samworth, RJ 和 Stewart, MI (2010)。多维对数凹密度的最大似然估计皇家统计学会杂志 B 72:545-600。

但是为了这个目的,他们太顶峰了。

由于问题本身的性质,高维问题很难独立于所使用的方法来解决。例如,在另一个答案(均值偏移)中提出的方法很好,但众所周知,估计密度的导数比根据误差估计密度本身更加困难(我不是批评这一点,只是指出这个问题有多难)。那么您可能需要数千次观察才能准确估计维度高于4在非玩具问题中。

您可以考虑使用的其他方法是:拟合正态(或其他灵活分布)的多元有限混合或

Abraham, C.、Biau, G. 和 Cadre, B. (2003)。多元密度模式的简单估计加拿大统计杂志31:23-34。

我希望这有帮助。

适合您想要做的事情的方法是均值偏移算法。本质上,均值偏移依赖于沿着梯度方向移动,这是用“阴影”非参数估计的,K给定内核的K. 也就是说,如果密度f(x)估计为K, 然后f(x)估计为K. Fukunaga 和 Hostetler (1975) 中描述了估计核密度梯度的细节,其中也恰好引入了均值偏移算法。

此博客条目中还对算法进行了非常详细的说明

参考:

  • K. Fukunaga 和 L. Hostetler,“密度函数梯度的估计,在模式识别中的应用”,IEEE Transactions on Information Theory 21(1),1975 年 1 月。

最近我们发表了一篇论文,提出了一种快速一致的模式估计器。

PS Ruzankin 和 AV Logachov (2019)。多维空间中的快速模式估计器。 统计和概率信函

我们的估计器具有时间复杂度O(dn), 在哪里d是维度和n是观察点的数量。尽管我们的方法可能不如这里已经提到的其他方法那么精确,但我们会写出完整的一致性和强一致性证明。

我还会从我最近的论文中建议新的最小方差模式估计器

PS 鲁赞金 (2020)。一类非参数模式估计器。 统计通信 - 模拟和计算

这些估计器具有时间复杂度O(dn2)为了n点在Rd. 请参阅那里的第 2.3 节。估计器具有与已知算法相似的精度。