为什么高斯过程中的均值函数无趣?

机器算法验证 高斯过程
2022-01-22 19:28:15

我刚刚开始阅读有关 GP 的内容,类似于常规高斯分布,它的特征是均值函数和协方差函数或内核。我在一次演讲中,演讲者说平均函数通常很无趣,所有的推理工作都花在估计正确的协方差函数上。

有人可以向我解释为什么会这样吗?

3个回答

我想我知道演讲者在说什么。就我个人而言,我并不完全同意她/他,而且有很多人不同意。但公平地说,也有很多人这样做:) 首先,请注意,指定协方差函数(内核)意味着指定函数的先验分布。仅仅通过改变内核,高斯过程的实现就发生了巨大的变化,从平方指数内核生成的非常平滑、无限可微的函数

在此处输入图像描述

对应于指数核(或 Matern 核)的“尖峰”、不可微函数ν=1/2)

在此处输入图像描述

另一种查看方法是在测试点中写入预测均值(高斯过程预测的均值,通过在训练点上调节 GP 获得)x,在零均值函数的最简单情况下:

y=kT(K+σ2I)1y

在哪里k是测试点之间的协方差向量x和训练点x1,,xn,K是训练点的协方差矩阵,σ是噪声项(刚刚设置σ=0如果您的讲座涉及无噪声预测,即高斯过程插值),以及y=(y1,,yn)是训练集中的观察向量。可以看到,即使 GP 先验的均值为零,但预测均值根本不为零,而且取决于核和训练点的数量,它可以是一个非常灵活的模型,能够学习到极复杂的图案。

更一般地说,是内核定义了 GP 的泛化属性。一些内核具有通用逼近特性,即,在给定足够的训练点的情况下,它们原则上能够将紧凑子集上的任何连续函数逼近到任何预先指定的最大容差。

那么,你为什么要关心平均函数呢?首先,一个简单的均值函数(线性或正交多项式函数)使模型更易于解释,对于像 GP 一样灵活(因此复杂)的模型,这一优势不可低估。其次,在某种程度上,零均值(或者,就其价值而言,也是常数均值)GP 在远离训练数据的预测方面很糟糕。许多固定核(除了周期性核)是这样的k(xix)0为了dist(xi,x). 这种收敛到 0 的速度可能会出人意料地迅速发生,尤其是使用平方指数核时,尤其是当需要较短的相关长度才能很好地拟合训练集时。因此,具有零均值函数的 GP 将始终预测y0一旦你离开训练集。

现在,这在您的应用程序中可能有意义:毕竟,使用数据驱动模型执行远离用于训练模型的数据点集的预测通常是一个坏主意。请参阅此处,了解为什么这可能是一个坏主意的许多有趣且有趣的示例。在这方面,零均值 GP 在远离训练集时总是收敛到 0,比模型(例如高度多元正交多项式模型)更安全,后者会很高兴地做出疯狂的大预测你远离训练数据。

然而,在其他情况下,您可能希望您的模型具有某种渐近行为,即不会收敛到一个常数。也许身体上的考虑会告诉你,x足够大,您的模型必须变为线性。在这种情况下,您需要一个线性均值函数。通常,当您的应用程序对模型的全局属性感兴趣时,您必须注意均值函数的选择。当您只对模型的局部(接近训练点)行为感兴趣时,零或恒定均值 GP 可能绰绰有余。

一个很好的理由是平均函数可能不在您希望建模的函数空间中。每个输入点,xi, 可能有相应的后验均值,μ(xi). 但是,这些后验均值点是您看到任何其他数据之前的期望值。因此,在许多情况下,观察到的未来数据不会产生该均值函数。

简单示例:想象一下拟合一个偏移量未知但周期和幅度为 1 的正弦函数。所有的先验均值为零x 但是一条常数线并不存在于我们描述的正弦函数空间中。协方差函数为我们提供了额外的结构信息。

我会给你一个可能不是演讲者本意的解释。在某些应用中,手段总是乏味的。例如,假设我们使用自回归模型预测销售额yt=c+γyt1+et. 长期均值显然是E[yt]μ=c1γ. 有趣吗?

这取决于你的目标。如果你追求的是店铺估价,那么它会告诉你必须增加c或减少γ增加商店的价值,因为价值由下式给出:

V=μr
在哪里r是折扣因子。所以,平均值显然很有趣。

如果您对流动性感兴趣,即您有足够的现金来支付未来几个月的开支,那么平均值几乎是无关紧要的。您正在查看下个月的现金预测:

y1=c+γy0
所以这个月的销量y0现在是一个因素。