如何在高斯过程中添加协方差噪声以防止过拟合?

机器算法验证 机器学习 协方差 高斯过程 非参数贝叶斯
2022-04-11 02:35:34

有人告诉我,在高斯过程中,向其他人(例如 SEiso 或 Materns)添加协方差函数噪声会导致更好的结果,因为它可以防止过度拟合。如果有人能更清楚地说明它,我将不胜感激!

2个回答

协方差本质上指定回归函数作为属性函数的相似程度。平方指数函数编码了先验知识,即后验应该是一个平滑函数(在一些由超参数控制的特征长度尺度上)。但是,如果生成观察结果的函数不平滑但具有随机元素(通常是这种情况),那么最大化边际似然最终将鼓励超参数采用允许 GP 对这些随机进行建模的值变化,而不是专注于更大规模的平滑度。

添加噪声项编码了函数应该相当平滑(SEiso 位)但也会有随机变化叠加在顶部的先验知识。然后在模型选择中,数据的变化可以解释为是由于输入特征(SEiso 位)的差异,或者只是由于数据中随机无意义的变化。然后,SEiso 位解释可变性的压力较小,因此制作具有较短长度尺度的 SEiso 组件的压力较小,这往往会更好地概括。

话虽如此,我一直在用 GP 分类器进行一些实验并学习协方差函数,我发现是否使用噪声项并没有太大的区别。边际似然是在有限(通常非常小的)数据样本上评估的统计量,这意味着它具有不可忽略的方差,这意味着如果您通过最大化来执行模型选择,则不可避免地存在过度拟合的危险边际可能性。这种危险可能比模型错误指定的危险(不包括协方差函数中的正确分量)更为严重。

假设你想适应β在模型中

[y1,y2]=[0,1]β+[ϵ(s1),ϵ(s1)],
哪里有噪音ϵ是一个零均值高斯过程,说 Matérn 协方差(任何协方差函数都可以)。因此,您在同一点有两个观察结果,但是观察结果之间的唯一区别是β, 所以β=y2y1概率为 1。

这是观测值位于同一点的极端情况,但在实践中非常靠近的点会给出相同的结果。这通常不是人们想要的,因此会增加一些噪音以避免这种类型的过度拟合。