机器算法验证 - 似然比与贝叶斯因子 - 吾爱随笔录

似然比与贝叶斯因子

机器算法验证似然比贝叶斯因子

2022-01-27 23:44:48

对于使用似然比来代表/反对给定现象的客观证据，我颇有福音。然而，我最近了解到贝叶斯因子在贝叶斯方法的背景下具有类似的功能（即主观先验与客观贝叶斯因子相结合，以产生客观更新的主观信念状态）。我现在试图了解似然比和贝叶斯因子之间的计算和哲学差异。

在计算级别，我知道虽然似然比通常使用代表每个模型各自参数化的最大似然的似然来计算（通过交叉验证估计或使用 AIC 根据模型复杂度进行惩罚），但显然贝叶斯因子以某种方式使用表示每个模型在其整个参数空间（即不仅仅是在 MLE）上集成的可能性的可能性。这种集成通常是如何实现的？是否真的只是尝试计算来自参数空间的数千个（数百万个？）随机样本中的每一个的似然性，或者是否有分析方法来整合整个参数空间的似然性？此外，在计算贝叶斯因子时，

此外，似然比和贝叶斯因子之间的哲学差异是什么（注意，我不是在问一般似然比和贝叶斯方法之间的哲学差异，而是贝叶斯因子作为客观证据的具体表示）。与似然比相比，如何描述贝叶斯因子的含义？

2个回答

显然，贝叶斯因子以某种方式使用表示每个模型在其整个参数空间（即不仅仅是在 MLE）上集成的可能性的可能性。这种集成通常是如何实现的？是否真的只是尝试计算来自参数空间的数千个（数百万个？）随机样本中的每一个的似然性，或者是否有分析方法来整合整个参数空间的似然性？

首先，您考虑一个术语的任何情况，例如 $P(D|M)$ 用于数据 $D$ 和模型 $M$ 被认为是似然模型。这通常是任何统计分析、常客或贝叶斯分析的基础，这也是您的分析要表明的部分是合适的还是不合适的。因此，贝叶斯因子与似然比没有根本不同。

将贝叶斯因子置于正确的设置中很重要。比如说，当你有两个模型，并且你从概率转换为几率时，贝叶斯因子就像先验信念的运算符一样：

P o s t e r i o r O d d s = B a y e s F a c t o r * P r i o r O d d s

$Posterior Odds = Bayes Factor * Prior Odds$

\frac{P (M_{1} | D)}{P (M_{2} | D)} = B . F . \times \frac{P (M_{1})}{P (M_{2})}

$\frac{P(M_{1}|D)}{P(M_{2}|D)} = B.F. \times \frac{P(M_{1})}{P(M_{2})}$

真正的区别在于似然比的计算成本更低，并且通常在概念上更容易指定。MLE 的可能性只是分别对贝叶斯因子分子和分母的点估计。像大多数常客结构一样，它可以被视为贝叶斯分析的一个特例，具有难以理解的人为先验。但主要是因为它在分析上易于处理且更易于计算（在近似贝叶斯计算方法出现之前的时代）。

就计算而言，是的：您将在几乎任何实际感兴趣的情况下使用大规模蒙特卡罗程序评估贝叶斯设置中的不同似然积分。如果您假设某些分布，则有一些专门的模拟器（例如 GHK）可以工作，并且如果您做出这些假设，有时您会发现存在完全解析贝叶斯因子的解析易处理问题。

但是没有人使用这些；没有理由。使用优化的 Metropolis/Gibbs 采样器和其他 MCMC 方法，以完全数据驱动的方式处理这些问题并以数值方式计算积分是完全可以处理的。事实上，人们通常会分层执行此操作，并进一步整合与数据收集机制、不可忽略的实验设计等相关的元先验结果。

我推荐《贝叶斯数据分析》一书以了解更多信息。虽然，作者 Andrew Gelman似乎不太关心贝叶斯因子。顺便说一句，我同意格尔曼的观点。如果你打算去贝叶斯，然后利用完整的后验。使用贝叶斯方法进行模型选择就像阻碍它们一样，因为模型选择是一种弱且几乎无用的推理形式。如果可以的话，我宁愿知道模型选择的分布......当你不需要时，谁会关心将其量化为“模型 A 比模型 B 更好”之类的陈述？

此外，在计算贝叶斯因子时，是否像使用似然比一样对复杂性进行校正（通过似然的交叉验证估计自动或通过 AIC 分析）？

这是贝叶斯方法的优点之一。贝叶斯因子自动解释了技术意义上的模型复杂性。您可以使用两个模型设置一个简单的场景， $M_{1}$ 和 $M_{2}$ 假设模型复杂度 $d_{1}$ 和 $d_{2}$ ，分别与 $d_{1} < d_{2}$ 和样本量 $N$ .

那么如果 $B_{1,2}$ 是贝叶斯因子 $M_{1}$ 在分子中，假设 $M_{1}$ 是真的，可以证明 $N\to\infty$ , $B_{1,2}$ 方法 $\infty$ 速度取决于模型复杂性的差异，并且贝叶斯因子有利于更简单的模型。更具体地说，您可以证明在上述所有假设下，

B_{1, 2} = O (N^{\frac{1}{2} (d_{2} - d_{1})})

$B_{1,2} = \mathcal{O}(N^{\frac{1}{2}(d_{2}-d_{1})})$

我熟悉Sylvia Frühwirth-Schnatter 所著的《有限混合和马尔可夫切换模型》一书中的推导和讨论，但可能有更直接的统计说明可以更深入地了解其背后的认识论。

我不太了解细节，无法在这里给出它们，但我相信这与 AIC 的推导之间存在一些相当深的理论联系。Cover 和 Thomas 的《信息论》一书至少暗示了这一点。

此外，似然比和贝叶斯因子之间的哲学差异是什么（注意，我不是在问一般似然比和贝叶斯方法之间的哲学差异，而是贝叶斯因子作为客观证据的具体表示）。与似然比相比，如何描述贝叶斯因子的含义？

维基百科文章的“解释”部分很好地讨论了这一点（尤其是显示杰弗里斯证据强度的图表）。

像往常一样，除了贝叶斯方法和频率论方法（您似乎已经熟悉）之间的基本区别之外，没有太多哲学内容。

主要的是似然比在荷兰书的意义上是不连贯的。您可以编造一些场景，其中从似然比推断模型选择将导致人们接受失败的赌注。贝叶斯方法是连贯的，但在可能非常差且必须主观选择的先验上运行。取舍……取舍……

FWIW，我认为这种高度参数化的模型选择不是很好的推理。我更喜欢贝叶斯方法，我更喜欢将它们组织得更有层次，如果在计算上完全可行的话，我希望推理集中在完整的后验分布上。我认为贝叶斯因子具有一些简洁的数学特性，但作为一个贝叶斯主义者，我对它们印象不深。它们隐藏了贝叶斯分析真正有用的部分，那就是它迫使你公开处理你的先验，而不是把它们扫到地毯下，并允许你对完整的后验进行推断。

在理解似然比和贝叶斯因子之间的差异时，更详细地考虑贝叶斯因子的一个关键特征是有用的：

贝叶斯因子如何自动解释基础模型的复杂性？

关于这个问题的一个观点是考虑确定性近似推理的方法。变分贝叶斯就是这样一种方法。它不仅可以显着降低随机近似（例如，MCMC 采样）的计算复杂性。变分贝叶斯还提供了对构成贝叶斯因子的直观理解。

首先回想一下，贝叶斯因子基于两个竞争模型的模型证据，

\begin{aligned} B F_{1, 2} = \frac{p (data ∣ M_{1})}{p (data ∣ M_{2})}, \end{aligned}

$\begin{align} BF_{1,2} = \frac{p(\textrm{data} \mid M_1)}{p(\textrm{data} \mid M_2)}, \end{align}$

其中各个模型证据必须通过复杂的积分来计算：

\begin{aligned} p (data ∣ M_{i}) = \int p (data ∣ θ, M_{i}) p (θ ∣ M_{i}) d θ \end{aligned}

$\begin{align} p(\textrm{data} \mid M_i) = \int p(\textrm{data} \mid \theta,M_i ) \ p(\theta \mid M_i) \ \textrm{d}\theta \end{align}$

这个积分不仅需要计算贝叶斯因子；也需要对参数本身进行推断，即在计算时 $p(\theta \mid \textrm{data}, M_i)$ .

固定形式的变分贝叶斯方法通过对条件后验做出分布假设（例如，高斯假设）来解决这个问题。这将一个困难的积分问题变成了一个更容易的优化问题：寻找近似密度矩的问题 $q(\theta)$ 与真实但未知的后验最大相似 $p(\theta \mid \textrm{data},M_i)$ .

变分微积分告诉我们，这可以通过最大化所谓的负自由能来实现 $\mathcal{F}$ ，这与对数模型证据直接相关：

\begin{aligned} F = log p (data ∣ M_{i}) - KL [q (θ) | | p (θ ∣ data, M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \textrm{log} \; p(\textrm{data} \mid M_i) - \textrm{KL}\left[q(\theta) \; || \; p(\theta \mid \textrm{data},M_i) \right] \end{align}$

从中可以看出，最大化负自由能不仅为我们提供了近似的后验 $q(\theta) \approx p(\theta \mid \textrm{data},M_i)$ . 因为 Kullback-Leibler 散度是非负的， $\mathcal{F}$ 还提供了（对数）模型证据本身的下限。

我们现在可以回到最初的问题，即贝叶斯因子如何自动平衡拟合优度和所涉及模型的复杂性。事实证明，负自由能可以改写如下：

\begin{aligned} F = {⟨ p (data ∣ θ, M_{i}) ⟩}_{q} - KL [q (θ) | | p (θ ∣ M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \left\langle p(\textrm{data} \mid \theta,M_i) \right\rangle_q - \textrm{KL}\left[ q(\theta) \; || \; p(\theta \mid M_i) \right] \end{align}$

第一项是近似后验下预期数据的对数似然；它代表模型的拟合优度（或准确度）。第二项是近似后验和先验之间的KL散度；它代表模型的复杂性，认为更简单的模型更符合我们先前的信念，或者认为更简单的模型不必为了容纳数据而被拉伸太多。

对数模型证据的自由能近似表明，模型证据在建模数据（即拟合优度）和保持与我们先前的一致性（即简单性或负复杂性）之间进行权衡。

因此，贝叶斯因子（与似然比相反）表示两个竞争模型中的哪一个更能提供对数据的简单而准确的解释。

其它你可能感兴趣的问题

上一篇bootstrap 可以被视为小样本量的“治疗方法”吗？下一篇解释多元回归和多元回归之间的区别，最少使用符号/数学