数据挖掘 - 如何在机器学习内核模型中调整带宽？ - 吾爱随笔录

如何在机器学习内核模型中调整带宽？

数据挖掘机器学习超参数高斯核心

2022-03-14 14:18:05

高斯核

$k(x,y) = \exp(-\lVert x-y \rVert^2/\sigma^2)$

有一个超参数 $\sigma$ 。

我知道网格搜索交叉验证，但这需要大量计算，因为内核方法的计算成本与样本数量的 2 次方成比例。

2个回答

如KDE 的 wikipedia 中所示，如果您的数据的基础密度是高斯分布，则可以给出经验法则带宽估计器。这个估计量由下式给出： $h = (\frac{4\hat{\sigma}}{3n})^{1/5}$ ，其中 $h$ 是您的 KDE 估计的带宽， $n$ 是数据的数量和 $\hat{\sigma}$ 样本标准差的估计。

如果您的数据的底层分布不是高斯分布，您仍然可以尝试使用此带宽，但它可能会使一切变得过于平滑。在这种情况下，您应该使用较小的带宽进行交叉验证。

经过一番搜索，我发现这个问题在某些情况下其实很简单。

在高斯过程回归中，可以简单地参考自动相关性确定（ARD），它是通过使用梯度下降来最大化边际似然来优化内核中的超参数以及观察噪声方差！

这是相当标准和成熟的。

其它你可能感兴趣的问题

上一篇绘图显示自变量和因变量之间的关系（二进制）下一篇回合制游戏（直接访问数据）应该使用哪种类型的神经网络？