p ( d )p(D)在贝叶斯统计

机器算法验证 贝叶斯 造型
2022-03-28 08:22:03

假设我有以下明显的贝叶斯计算:

p(θ|D)=p(θ)p(D|θ)p(D)

其中是我们尝试推断的模型参数,观察到的数据θD

我一直将理解为与我们对数据的知识相关,但这个概念总是有些抽象。例如,许多文本直接忽略 p(D)Dp(D)

此外,通常被称为归一化常数但如果是这种情况,为什么要写p (是否总是常数?p(D)p(D)p(D)

2个回答

P(D)不是先验的。这就是所谓的模型证据或边际可能性。是感兴趣参数的先验,这基本上是您需要应用的标准化以确保后验是有效分布。所以基本上我们正在边缘化并询问观察的概率是多少。P(θ)P(D)θP(θ)P(D|θ)dθθD

这些通常难以计算。另请参阅共轭先验。

P(D)如果您表征完整的后验,则这是必要的。例如,如果您想对参数进行最大后验 (MAP) 估计,那么您无需担心归一化器,因为您只是在尝试最大化给定观察值的参数的后验概率,即

P(θ|D)P(D|θ)P(θ)

因此,您无需担心分母 (P(D)) 因为它不影响查找θ最大化后验。然而,MAP 给你一个点估计,你忽略了后验分布可能传达的丰富信息。

但是,如果您想量化不确定性,进行模型比较(请参阅贝叶斯因子)以及可能的其他事情,那么您还需要计算或近似P(D).

我还建议阅读 Chris Bishop 的书。他以惊人的方式解释了很多这些事情!这本书被 Christopher Bishop 称为“模式识别和机器学习”。他还有一些关于概率图形模型和贝叶斯推理的精彩讲座,可以在以下链接中找到:

https://www.youtube.com/watch?v=ju1Grt2hdko

https://www.youtube.com/watch?v=c0AWH5UFyOk

https://www.youtube.com/watch?v=QJSEQeH40hM