贝叶斯统计以外的先验知识建模框架

机器算法验证 贝叶斯 事先的
2022-03-29 09:19:28

我的理解是,人们可以很容易地使用贝叶斯统计对变量甚至模型的先验知识进行建模。在某种程度上,贝叶斯统计“迫使您”考虑先验知识并使用分布对其进行明确建模。我的理解也是,贝叶斯统计中唯一“固定”(提供)的是“实际估计量”,而在频率论统计中,有许多类型的理论上定义的估计量,而且很多科学都涉及到这一点。

  1. 我上面的理解正确吗?
  2. 除了贝叶斯统计之外,还有其他框架可以帮助建模者明确定义先验信念吗?也许不需要标准化的框架,例如基于能量的模型或者,贝叶斯统计真的是唯一一个对先验知识进行推理的框架得到了很好的定义。
2个回答

还有其他选择,例如,您可以使用约束优化或正则化。但是请注意,在大多数情况下,这些方法可以被认为是变相的贝叶斯推理。例如,优化期间参数的约束范围,与在此范围内使用平面先验相同。使用正则化与使用高斯先验相同。L2

此外,在贝叶斯推理中,您也不需要归一化。对于 MCMC 和优化,您可以使用未归一化的密度。使用近似贝叶斯计算,您甚至可以解决未将可能性指定为概率分布的问题。

最后,贝叶斯方法流行的原因之一是您最终得到了估计的概率分布(后验),它量化了估计的不确定性。这在其他方法中不直接可用。

将先验信息合并到估计器中的一种方法是通过可能性(或模型,取决于您如何看待它)。也就是说,当我们建立一个标准的参数模型时,我们限制自己说我们将允许模型遵循一个非常具体的形式,我们知道参数本身的值。如果我们对这种形式大致正确,我们应该比具有更多参数的更一般的模型更有效的估计。另一方面,如果我们的“先验知识”严重不足并且这种约束过于严格,我们应该在我们的模型中引入很多偏见。

作为一个相当现代的例子,卷积神经网络 (CNN) 目前是最先进的图像分类技术,比普通的全连接 NN 做得好得多。CNN 和标准 NN 之间的唯一区别在于,在顶层,只有CNN允许局部交互,因为完全连接的 NN 并不关心两个像素彼此之间的距离。换句话说,CNN 模型是 vanilla NN 的适当子集,其中许多顶级参数设置为 0。这是基于附近像素很可能相关的先验知识,因此通过约束完全连接模型,我们得到更有效的估计。根据经验,使用我们认为像素之间的交互应该如何工作的先验信息,我们改进了对图像分类的预测。