假设我有以下明显的贝叶斯计算:
其中是我们尝试推断的模型参数,是观察到的数据。
我一直将理解为与我们对数据的知识相关,但这个概念总是有些抽象。例如,许多文本直接忽略 。
此外,通常被称为归一化常数。但如果是这种情况,为什么要写?p (是否总是常数?
假设我有以下明显的贝叶斯计算:
其中是我们尝试推断的模型参数,是观察到的数据。
我一直将理解为与我们对数据的知识相关,但这个概念总是有些抽象。例如,许多文本直接忽略 。
此外,通常被称为归一化常数。但如果是这种情况,为什么要写?p (是否总是常数?
不是先验的。这就是所谓的模型证据或边际可能性。是感兴趣参数的先验,是。这基本上是您需要应用的标准化以确保后验是有效分布。所以基本上我们正在边缘化并询问观察的概率是多少。
这些通常难以计算。另请参阅共轭先验。
如果您表征完整的后验,则这是必要的。例如,如果您想对参数进行最大后验 (MAP) 估计,那么您无需担心归一化器,因为您只是在尝试最大化给定观察值的参数的后验概率,即
因此,您无需担心分母 () 因为它不影响查找最大化后验。然而,MAP 给你一个点估计,你忽略了后验分布可能传达的丰富信息。
但是,如果您想量化不确定性,进行模型比较(请参阅贝叶斯因子)以及可能的其他事情,那么您还需要计算或近似.
我还建议阅读 Chris Bishop 的书。他以惊人的方式解释了很多这些事情!这本书被 Christopher Bishop 称为“模式识别和机器学习”。他还有一些关于概率图形模型和贝叶斯推理的精彩讲座,可以在以下链接中找到:
https://www.youtube.com/watch?v=ju1Grt2hdko