贝叶斯高斯过程回归的预测是否正态分布?

机器算法验证 回归 贝叶斯 高斯过程
2022-04-08 06:53:18

这与我的其他问题没有直接关系,尽管主题是相同的。这也很可能是一个非常微不足道的问题,但请耐心等待:) 我正在与一位同事讨论高斯过程回归的使用,他提出了两个我不同意的断言:

  1. GPR 只能用于在预测变量呈正态分布时对响应进行建模。
  2. GPR 模型的响应总是正态分布的。

我相信第一个断言是错误的(实际上,GPR 对预测变量的联合分布根本不做任何假设),而第二个断言只有在超参数固定的情况下才是正确的。但是,如果我们遵循完全贝叶斯方法,并推导出超参数的后验概率分布,则后验预测分布不再是正态分布:它只是响应的分布,以超参数和观察为条件,即正态分布。在公式中:

y=f(x)+ϵ,ϵN(0,σnoise2)

并假设先于全科医生f(x). {(x1,y1,),(xd,yd,)}是一组观测值,则超参数的后验概率分布为

p(θ|y)p(y|θ)p(θ)

现在,一个新的响应向量的分布,以超参数和观察为条件,即,是正态分布的(对吗?)。然而,后验预测分布是yp(y|θ,y)

p(y|y)=p(y,θ|y)p(θ)dθ=p(y|θ,y)p(θ|y)p(θ)dθ

在积分中,只有项是(多元)正态 pdf。可能具有我们认为适合对手头的统计问题建模的任何分布。没有理由认为这三个分布的乘积的积分 wrt是正态分布的,因此我们不能说向量是正态分布的。这个对吗?p(y|θ,y)p(y|θ)p(θ)θy|y

1个回答
  1. GPR 不对预测变量做出任何统计假设。他们甚至不必是数字!您所需要的只是一个先验均值函数和一个协方差函数,它们也可以为非数字数据(离散联合联合、字符串、集合等)定义。
  2. 当人们谈论 GPR 时,这是正确的或假设的,因为它最有趣的方面是它允许精确推理:它本质上只是归结为线性代数。一旦你引入更多的灵活性,例如非高斯噪声、超参数的先验,你就会失去这个重要的属性,不得不求助于近似推理。也就是说,即便如此,在使用基于 GPR 的模型时通常也具有计算优势。