我正在做一些核密度估计,带有加权点集(即,每个样本都有一个不必要的权重),在 N 维中。此外,这些样本只是在度量空间中(即,我们可以定义它们之间的距离),但仅此而已。例如,我们无法确定样本点的平均值,也无法确定标准偏差,也无法将一个变量与另一个变量进行比较。Kernel 只是受这个距离的影响,每个样本的权重:
在这种情况下,我试图找到对内核带宽上给出精确的重建。如有必要,我们可以假设该函数相对平滑。
我尝试使用到第一个或第二个最近邻居的距离,但结果非常糟糕。我尝试了留一法优化,但我很难在 Nd 的这种情况下找到一个好的度量来优化,所以它发现了非常糟糕的估计,特别是对于训练样本本身。我不能使用基于正常假设的贪心估计,因为我无法计算标准偏差。我找到了使用协方差矩阵来获得各向异性内核的引用,但同样,它在这个空间中不成立......
有人有想法或参考吗?