如何在机器学习内核模型中调整带宽?

数据挖掘 机器学习 超参数 高斯 核心
2022-03-14 14:18:05

高斯核

k(x,y)=exp(xy2/σ2)

有一个超参数σ

我知道网格搜索交叉验证,但这需要大量计算,因为内核方法的计算成本与样本数量的 2 次方成比例。

2个回答

KDE 的 wikipedia 中所示,如果您的数据的基础密度是高斯分布,则可以给出经验法则带宽估计器。这个估计量由下式给出:h=(4σ^3n)1/5,其中h是您的 KDE 估计的带宽,n是数据的数量和σ^样本标准差的估计。

如果您的数据的底层分布不是高斯分布,您仍然可以尝试使用此带宽,但它可能会使一切变得过于平滑。在这种情况下,您应该使用较小的带宽进行交叉验证。

经过一番搜索,我发现这个问题在某些情况下其实很简单。

高斯过程回归中,可以简单地参考自动相关性确定(ARD),它是通过使用梯度下降来最大化边际似然来优化内核中的超参数以及观察噪声方差!

这是相当标准和成熟的。