数值积分太贵是什么意思?

机器算法验证 贝叶斯 数值积分 变分贝叶斯 近似推理
2022-03-03 01:19:00

我正在阅读有关贝叶斯推理的内容,并且遇到了“边际可能性的数值积分太昂贵”这句话

我没有数学背景,我想知道这里的昂贵到底是什么意思?它只是在计算能力方面还是有更多的东西。

3个回答

在计算问题的背景下,包括贝叶斯推理的数值方法,短语“太昂贵”通常可以指两个问题

  1. 一个特定的问题太“大”而无法计算特定的“预算
  2. 通用方法的扩展性很差,即具有很高的计算复杂度

对于任何一种情况,构成“预算”的计算资源可能包括 CPU 周期(时间复杂度)、内存(空间复杂度)或通信带宽(计算节点或计算节点之间)。在第二种情况下,“太贵”意味着难以处理

在贝叶斯计算的上下文中,这句话可能是指大量变量边缘化问题。

例如,最近这篇论文的摘要开始

集成受到维度灾难的影响,并且随着问题维度的增长迅速变得难以处理。

然后继续说

我们提出了一种随机算法……可以反过来用于例如边际计算或模型选择。

(为了比较,这本书最近的章节讨论了被认为“不太昂贵”的方法。)

我会给你一个离散案例的例子来说明为什么集成/求和非常昂贵。

假设我们有二进制随机变量,并且我们有联合分布(事实上​​,不可能将联合分布存储在一个表中,因为有值。假设我们现在在表和 RAM 中都有它。)100P(X1,X2,,X100)2100

为了得到的边际分布,我们需要对其他随机变量求和。(在连续情况下,它是积分结束。)P(X1)

P(X1)=X2X3X100P(X1,X2,,X100)

我们对变量求和,因此,运算的次数是指数的,在这种情况下,它是,这是地球上所有计算机都做不到的巨大数字。99299

概率图形模型文献中,这种计算边际分布的方法被称为“蛮力”方法来执行“推理”。顾名思义,我们可能知道它很贵。人们使用许多其他方式来执行推理,例如,有效地获得边际分布。“其他方式”包括近似推理等。

通常在执行贝叶斯推理时,很容易遇到例如对讨厌变量的重度集成。另一个示例可以是数值采样,在这种情况下来自似然函数,这意味着从给定分布执行随机采样。随着模型参数数量的增加,这种采样变得非常繁重,并且已经开发了各种计算方法来加快过程并允许非常快速的实现,当然要保持高水平的准确性。这些技术例如 MC、MCMC、Metropolis ecc。看看 Gelman 等人的贝叶斯数据分析。它应该给你一个广泛的介绍!祝你好运