当我的模型错误时,为什么我应该是贝叶斯?

机器算法验证 贝叶斯 造型 哲学的 指定错误
2022-01-25 23:02:27

编辑:我添加了一个简单的例子:$X_i$ 的均值推断。我还稍微澄清了为什么不匹配置信区间的可信区间是不好的。

我,一个相当虔诚的贝叶斯主义者,正处于某种信仰危机之中。

我的问题如下。假设我要分析一些 IID 数据 $X_i$。我会做的是:

  • 首先,提出一个条件模型:$$ p(X|\theta) $$

  • 然后,在 $\theta$ 上选择一个先验: $$ p(\theta) $$

  • 最后,应用贝叶斯规则,计算后验: $p(\theta | X_1 \dots X_n )$ (或一些近似值,如果它应该是不可计算的)并回答我关于 $\theta$ 的所有问题

这是一种明智的方法:如果数据 $X_i$ 的真实模型确实在我的条件“内部”(它对应于某个值 $\theta_0$),那么我可以调用统计决策理论来说明我的方法是可接受(详见罗伯特的“贝叶斯选择”;“所有统计数据”也在相关章节中给出了明确的说明)。

然而,众所周知,假设我的模型是正确的,这是相当傲慢的:为什么自然会整齐地落在我考虑过的模型的盒子里?对于 $\theta$ 的所有值,假设数据 $p_{true}(X)$ 的真实模型不同于 $p(X|\theta)$ 更为现实。这通常被称为“错误指定”的模型。

我的问题是,在这个更现实的错误指定的情况下,我没有任何好的论据来证明贝叶斯(即:计算后验分布)与简单地计算最大似然估计量(MLE):

$$ \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] $$

事实上,根据Kleijn, vd Vaart (2012)的说法,在错误指定的情况下,后验分布:

  • 收敛为 $n\rightarrow \infty $ 到以 $\hat \theta_{ML} $ 为中心的狄拉克分布

  • 没有正确的方差(除非两个值恰好相同),以确保 $\theta$ 的后验置信区间的可信区间匹配。(请注意,虽然置信区间显然不是贝叶斯主义者过度关心的事情,但这在定性上意味着后验分布本质上是错误的,因为这意味着它的可信区间没有正确的覆盖范围)

因此,我们为没有额外的属性付出了计算溢价(贝叶斯推理通常比 MLE 更昂贵)

因此,最后,我的问题是:当模型被错误指定时,是否有任何论据,无论是理论上的还是经验上的,都可以使用贝叶斯推断而不是更简单的 MLE 替代方案?

(由于我知道我的问题经常不清楚,如果您有不明白的地方请告诉我:我会尝试改写它)

编辑:让我们考虑一个简单的例子:在高斯模型下推断 $X_i$ 的平均值(已知方差 $\sigma$ 以进一步简化)。我们考虑一个高斯先验:我们表示 $\mu_0$ 是先验均值,$\beta_0$ 是先验的逆方差。令 $\bar X$ 为 $X_i$ 的经验平均值。最后,注意:$\mu = (\beta_0 \mu_0 + \frac{n}{\sigma^2} \bar X) / (\beta_0 + \frac{n}{\sigma^2} )$。

后验分布为:

$$ p(\theta |X_1 \dots X_n)\; \propto\; \exp\!\Big( - (\beta_0 + \frac{n}{\sigma^2} ) (\theta - \mu)^2 / 2\Big) $$

在正确指定的情况下(当 $X_i$ 确实具有高斯分布时),这个后验具有以下很好的属性

  • 如果 $X_i$ 是从分层模型生成的,其中它们的共享均值是从先验分布中挑选出来的,那么后置可信区间具有精确的覆盖范围。以数据为条件,$\theta$ 处于任何区间的概率等于后验归因于该区间的概率

  • 即使先验不正确,可信区间在限制 $n\rightarrow \infty$ 中也有正确覆盖,其中先验对后验的影响消失

  • 后验进一步具有良好的频率特性:任何从后验构造的贝叶斯估计量都保证是可接受的,后验均值是均值的有效估计量(在 Cramer-Rao 意义上),可信区间是渐近的置信区间。

在指定错误的情况下,这些属性中的大多数都不受理论的保证。为了修正想法,让我们假设 $X_i$ 的真实模型是它们是学生分布。我们可以保证(Kleijn 等人)的唯一属性是后验分布集中在 $X_i$ 在限制 $n \rightarrow \infty$ 中的真实均值上。一般来说,所有的覆盖属性都会消失。更糟糕的是,一般来说,我们可以保证,在这个限制下,覆盖属性从根本上是错误的:后验分布将错误的概率归因于空间的各个区域。

4个回答

当我的数据集不是关于该主题的所有信息时,我会考虑贝叶斯方法,并且希望以某种方式将这些外生知识纳入我的预测中。

例如,我的客户想要预测其投资组合中的贷款违约情况。他们有 100 笔带有几年季度历史数据的贷款。有几次拖欠(逾期付款)和几起违约。如果我试图在这个数据集上估计生存模型,估计的数据很少,预测的不确定性太多。

另一方面,投资组合经理是经验丰富的人,他们中的一些人可能已经花了几十年的时间来管理与借款人的关系。他们对违约率应该是什么样子有想法。因此,他们能够提出合理的先验。请注意,不是那些具有很好的数学特性并且在智力上对我有吸引力的先验。我会和他们聊天,并以这些先验的形式提取他们的经验和知识。

在我看来,现在贝叶斯框架将为我提供将先验形式的外生知识与数据结合起来的机制,并获得优于纯定性判断和纯数据驱动预测的后验。这不是哲学,我也不是贝叶斯主义者。我只是在使用贝叶斯工具将专家知识始终如一地纳入数据驱动的估计中。

一个非常有趣的问题......可能没有答案(但这并没有让它变得不那么有趣!)

关于所有模型都是错误的模因的一些想法(以及许多指向我的博客条目的链接!)

  1. 虽然假设模型确实几乎总是和不可弥补的错误,但如果这是最好的,那么以有效或连贯的方式对该模型采取行动仍然是有意义的。由此产生的推论产生了对与实际数据生成模型(如果有的话)“最接近”的正式模型的评估;
  2. 存在不需要模型的贝叶斯方法,最近的一个例子是Bissiri 等人的论文。(连同我的评论)以及Watson 和 Holmes我与 Judith Rousseau 讨论过);
  3. 以一种连接的方式,存在一个处理M-open 推理的贝叶斯统计的整个分支;
  4. 我非常喜欢的另一个方向是Peter Grünwald的SafeBayes方法,他考虑到模型错误指定,用降级版本替换可能性,表示为原始可能性的幂。
  5. Gelman 和 Hennig最近的阅读论文解决了这个问题,尽管是以一种迂回的方式(我在我的博客上添加了一些评论)。我想您可以从有关您的问题的条目中收集材料进行讨论。
  6. 从某种意义上说,贝叶斯主义者应该是统计学家和建模者中最不关心这方面的,因为抽样模型将被视为几个先前假设之一,并且结果是有条件的或所有这些先前假设相关。

我今天才看到这个,但我仍然认为我应该加入,因为我是一个专家,并且至少有两个答案(nr 3 和 20(感谢您参考我的工作西安!))提到我的工作SafeBayes - 特别是 G. 和 van Ommen,“错误指定的线性模型的贝叶斯推理不一致,以及修复它的建议”(2014 年)。我还想在评论 2 中添加一些内容:

2 说:(在错误指定下贝叶斯的一个优势是......)“嗯,贝叶斯方法正则化。这有助于防止过度拟合 - 无论您的模型是否被错误指定。当然,这只会导致相关的问题针对正则化经典方法(套索等)的贝叶斯推理的论据"

这是真的,但重要的是要补充一点,贝叶斯方法可能没有足够的正则化 如果模型错误。这是与 Van Ommen 合作的重点——我们在那里看到标准贝叶斯在一些错误但非常有用的模型的回归环境中过度拟合相当严重。不如 MLE 糟糕,但仍然太有用了。在(频率论和博弈论)理论机器学习方面有一整套工作,他们使用类似于贝叶斯的方法,但“学习率”要小得多——使先验更多,数据不那么重要,从而规范化更多。这些方法旨在在最坏的情况下(错误指定甚至更糟糕的对抗性数据)运行良好——SafeBayes 方法旨在从数据本身“学习最佳学习率”——以及这种最佳学习率,即最佳数量正则化,

相关地,有一个民间定理(上面几个提到)说贝叶斯将后验集中在最接近“真相”的 KL 散度的分布上。但这仅在非常严格的条件下成立 - 比在明确指定的情况下收敛所需的条件严格得多。如果您正在处理标准的低维参数模型并且数据根据某种分布(不在模型中)是独立同分布的,那么后验确实会集中在模型中最接近 KL 散度真实值的点周围。现在,如果您正在处理大型非参数模型并且模型是正确的,那么(基本上)您的后验仍然会集中在给定足够数据的真实分布上,只要您的先验在真实分布周围的小 KL 球中放置足够的质量。这是如果模型正确,则在非参数情况下收敛所需的弱条件。

但是如果你的模型是非参数的但不正确,那么后验可能根本不会集中在最近的 KL 点附近,即使你的先验将质量接近 1(!)在那里 - 你的后验可能永远保持混乱,专注于不同的分布随着时间的推移,但永远不会围绕最好的一个。在我的论文中,我有几个发生这种情况的例子。在错误规范下确实显示收敛的论文(例如 Kleijn 和 van der Vaart)需要很多附加条件,例如模型必须是凸的,或者先验必须服从某些(复杂的)属性。这就是我所说的“严格”条件。

在实践中,我们经常处理参数化但非常高维的模型(想想贝叶斯岭回归等)。然后,如果模型是错误的,最终你的后验将集中在模型中的最佳 KL 分布上,但非参数不一致的迷你版本仍然存在:在收敛之前它可能需要更多数量级的数据 - 再次,我的论文Van Ommen 举了一些例子。

SafeBayes 方法修改标准贝叶斯方法,以保证非参数模型在(基本上)与明确指定的情况相同的条件下收敛,即模型中 KL 最优分布附近有足够的先验质量(G. and Mehta, 2014 )。

然后是贝叶斯在错误说明下是否有正当理由的问题。恕我直言(以及上面几个人也提到的),贝叶斯的标准理由(可接纳性、野蛮人、德菲内蒂、考克斯等)在这里不成立(因为如果你意识到你的模型指定错误,你的概率并不代表你的真实信念!)。然而,许多贝叶斯方法也可以解释为“最小描述长度 (MDL) 方法”——MDL 是一种信息论方法,它将“从数据中学习”等同于“尽可能地压缩数据”。(某些)贝叶斯方法的这种数据压缩解释在错误指定的情况下仍然有效。所以还是有的在错误规范下仍然存在的基本解释 - 然而,正如我与 van Ommen 的论文(以及原始帖子中提到的置信区间/可信集问题)所显示的那样,存在问题。

然后是关于原始帖子的最后一句话:您提到了贝叶斯的“可接受性”理由(回到 1940 年代/50 年代沃尔德的完整课程)。这是否真的是贝叶斯的正当理由,很大程度上取决于一个人对“贝叶斯推理”的精确定义(因研究人员而异……)。原因是这些可接纳性结果允许使用取决于问题的各个方面(例如样本大小和感兴趣的损失函数等)的先验。如果数量他们必须处理变化的数据,或者如果感兴趣的损失函数突然改变。例如,对于严格凸损失函数,极小极大估计量也是可以接受的——尽管通常不被认为是贝叶斯!原因是对于每个固定的样本量,它们等效于具有特定先验的贝叶斯,但是对于每个样本量,先验是不同的。

希望这是有用的!

编辑:根据 OP 的要求,在正文中添加了对本文的引用。


我在这里作为一个天真的经验贝叶斯给出一个答案。

首先,后验分布允许您进行简单的 MLE 无法进行的计算。最简单的情况是今天的后验就是明天的先验贝叶斯推理自然允许顺序更新,或者更一般地允许多个信息源的在线或延迟组合(结合先验只是这种组合的一个教科书实例)。具有非平凡损失函数的贝叶斯决策理论是另一个例子。我不知道该怎么做。

其次,有了这个答案,我将尝试争辩说,不确定性的量化通常比没有不确定性要好,这实际上是一个经验问题,因为定理(正如你提到的,据我所知)不能提供任何保证。

优化作为科学努力的玩具模型

一个我觉得完全捕捉问题复杂性的领域是一个非常实用、严肃的领域,一个黑盒函数的优化 $f: \mathcal{X} \subset \mathbb{R}^D \rightarrow \数学{R}$。我们假设我们可以顺序查询一个点 $x \in \mathcal{X}$ 并得到一个可能有噪声的观察 $y = f(x) + \varepsilon$,其中 $\varepsilon \sim \mathcal{N}(0 ,\sigma^2)$。我们的目标是以最少的函数评估次数尽可能接近 $x^* = \arg\min_x f(x)$。

如您所料,一个特别有效的方法是建立一个预测模型,如果我查询任何 $x^\prime \in \mathcal{X}$ 会发生什么,并使用此信息来决定下一步做什么(本地或全球)。有关无导数全局优化方法的评论,请参见Rios 和 Sahinidis (2013) 。当模型足够复杂时,这称为元模型代理函数响应面方法。至关重要的是,该模型可以是 $f$ 的点估计(例如,径向基网络函数与我们的观察结果的拟合),或者我们可以是贝叶斯并以某种方式获得 $f$ 上的完整后验分布(例如,通过高斯过程)。

贝叶斯优化 使用 $f$ 上的后验(特别是任意点的联合条件后验均值和方差)通过一些原则性启发式来指导(全局)最优的搜索。经典的选择是最大化当前最佳点的预期改进,但还有更高级的方法,例如最小化最小值位置的预期熵(另请参见此处)。

这里的经验结果是,即使部分错误指定,获得后验通常也会比其他方法产生更好的结果。(有一些警告和情况,贝叶斯优化并不比随机搜索好,例如在高维度中。)在本文中,我们对新的 BO 方法与其他优化算法进行了实证评估,检查使用 BO 是否方便在实践中,取得了可喜的成果。

既然你问了——这比其他非贝叶斯方法的计算成本要高得多,你想知道为什么我们应该是贝叶斯方法。这里的假设是评估真正的 $f$ 所涉及的成本(例如,在真实场景中,复杂的工程或机器学习实验)远大于贝叶斯分析的计算成本,因此贝叶斯是有回报的

我们可以从这个例子中学到什么?

首先,为什么贝叶斯优化会起作用?我猜这个模型是错误的,但不是那么错误,而且通常错误取决于你的模型的用途。例如,$f$ 的确切形状与优化无关,因为我们可以优化其任何单调变换。我猜大自然充满了这种不变性。因此,我们正在进行的搜索可能不是最优的(即,我们丢弃了好的信息),但仍然比没有不确定性信息的情况要好。

其次,我们的示例强调了是否贝叶斯的有用性可能取决于上下文,例如可用(计算)资源的相对成本和数量。(当然,如果您是铁杆贝叶斯主义者,您相信每个计算都是在某些先验和/或近似下的贝叶斯推理。)

最后,最大的问题是——为什么我们使用的模型毕竟不是那么糟糕,因为后验仍然有用而不是统计垃圾?如果我们采用无免费午餐定理,显然我们不能说太多,但幸运的是,我们并不生活在一个完全随机(或对抗性选择)函数的世界中。

更一般地说,既然你贴上了“哲学”标签......我想我们正在进入归纳问题的领域,或者统计科学中数学的不合理有效性(特别是我们的数学直觉和指定模型的能力)这在实践中有效)——从某种意义上说,从纯粹先验的角度来看,我们的猜测没有理由应该是好的或有任何保证(当然,你可以建立数学反例来使事情出错),但它们会转向在实践中很好地工作。