显然,贝叶斯因子以某种方式使用表示每个模型在其整个参数空间(即不仅仅是在 MLE)上集成的可能性的可能性。这种集成通常是如何实现的?是否真的只是尝试计算来自参数空间的数千个(数百万个?)随机样本中的每一个的似然性,或者是否有分析方法来整合整个参数空间的似然性?
首先,您考虑一个术语的任何情况,例如磷( D |米)用于数据D和模型米被认为是似然模型。这通常是任何统计分析、常客或贝叶斯分析的基础,这也是您的分析要表明的部分是合适的还是不合适的。因此,贝叶斯因子与似然比没有根本不同。
将贝叶斯因子置于正确的设置中很重要。比如说,当你有两个模型,并且你从概率转换为几率时,贝叶斯因子就像先验信念的运算符一样:
磷o s t e r i o r O dds = B y _e s Fa c t o r * Pr i o r O dds
磷(米1| D)磷(米2| D)=乙。F. ×磷(米1)磷(米2)
真正的区别在于似然比的计算成本更低,并且通常在概念上更容易指定。MLE 的可能性只是分别对贝叶斯因子分子和分母的点估计。像大多数常客结构一样,它可以被视为贝叶斯分析的一个特例,具有难以理解的人为先验。但主要是因为它在分析上易于处理且更易于计算(在近似贝叶斯计算方法出现之前的时代)。
就计算而言,是的:您将在几乎任何实际感兴趣的情况下使用大规模蒙特卡罗程序评估贝叶斯设置中的不同似然积分。如果您假设某些分布,则有一些专门的模拟器(例如 GHK)可以工作,并且如果您做出这些假设,有时您会发现存在完全解析贝叶斯因子的解析易处理问题。
但是没有人使用这些;没有理由。使用优化的 Metropolis/Gibbs 采样器和其他 MCMC 方法,以完全数据驱动的方式处理这些问题并以数值方式计算积分是完全可以处理的。事实上,人们通常会分层执行此操作,并进一步整合与数据收集机制、不可忽略的实验设计等相关的元先验结果。
我推荐《贝叶斯数据分析》一书以了解更多信息。虽然,作者 Andrew Gelman似乎不太关心贝叶斯因子。顺便说一句,我同意格尔曼的观点。如果你打算去贝叶斯,然后利用完整的后验。使用贝叶斯方法进行模型选择就像阻碍它们一样,因为模型选择是一种弱且几乎无用的推理形式。如果可以的话,我宁愿知道模型选择的分布......当你不需要时,谁会关心将其量化为“模型 A 比模型 B 更好”之类的陈述?
此外,在计算贝叶斯因子时,是否像使用似然比一样对复杂性进行校正(通过似然的交叉验证估计自动或通过 AIC 分析)?
这是贝叶斯方法的优点之一。贝叶斯因子自动解释了技术意义上的模型复杂性。您可以使用两个模型设置一个简单的场景,米1和M2假设模型复杂度d1和d2,分别与d1<d2和样本量N.
那么如果B1,2是贝叶斯因子M1在分子中,假设M1是真的,可以证明N→∞,B1,2方法∞速度取决于模型复杂性的差异,并且贝叶斯因子有利于更简单的模型。更具体地说,您可以证明在上述所有假设下,
B1,2=O(N12(d2−d1))
我熟悉Sylvia Frühwirth-Schnatter 所著的《有限混合和马尔可夫切换模型》一书中的推导和讨论,但可能有更直接的统计说明可以更深入地了解其背后的认识论。
我不太了解细节,无法在这里给出它们,但我相信这与 AIC 的推导之间存在一些相当深的理论联系。Cover 和 Thomas 的《信息论》一书至少暗示了这一点。
此外,似然比和贝叶斯因子之间的哲学差异是什么(注意,我不是在问一般似然比和贝叶斯方法之间的哲学差异,而是贝叶斯因子作为客观证据的具体表示)。与似然比相比,如何描述贝叶斯因子的含义?
维基百科文章的“解释”部分很好地讨论了这一点(尤其是显示杰弗里斯证据强度的图表)。
像往常一样,除了贝叶斯方法和频率论方法(您似乎已经熟悉)之间的基本区别之外,没有太多哲学内容。
主要的是似然比在荷兰书的意义上是不连贯的。您可以编造一些场景,其中从似然比推断模型选择将导致人们接受失败的赌注。贝叶斯方法是连贯的,但在可能非常差且必须主观选择的先验上运行。取舍……取舍……
FWIW,我认为这种高度参数化的模型选择不是很好的推理。我更喜欢贝叶斯方法,我更喜欢将它们组织得更有层次,如果在计算上完全可行的话,我希望推理集中在完整的后验分布上。我认为贝叶斯因子具有一些简洁的数学特性,但作为一个贝叶斯主义者,我对它们印象不深。它们隐藏了贝叶斯分析真正有用的部分,那就是它迫使你公开处理你的先验,而不是把它们扫到地毯下,并允许你对完整的后验进行推断。