我认为核心误解源于您在问题前半部分提出的问题。我将这个答案视为对比 MLE 和贝叶斯推理范式。可以在 Gary King统一政治方法论的第 1 章中找到关于 MLE 的非常平易近人的讨论。Gelman 的贝叶斯数据分析可以提供贝叶斯方面的详细信息。
在贝叶斯定理中,
在我正在阅读的书中,被称为可能性,但我认为这只是给定的条件概率,对吧?
p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy
可能性是一个条件概率。对于贝叶斯,这个公式描述了给定数据和先验的分布。但由于此表示法不反映您的意图,因此我将使用 ( , ) 作为参数,作为您的数据。yxp(y)θyx
但是您的更新表明是从某个分布中观察到的。如果我们将数据和参数放在贝叶斯规则中的适当位置,我们会发现这些额外的参数对贝叶斯没有问题:
xp(x|θ,y)
p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)
我相信这个表达是你在更新中所追求的。
最大似然估计试图最大化,对吗?p(x,y|θ)
是的。MLE 假定
即它把视为一个未知数(和不可知的)常数。相比之下,贝叶斯推理将视为归一化常数(以便概率求和/积分为单位),并将视为关键信息:先验。我们可以将视为一种对优化过程产生惩罚的方式,因为它会因我们认为最合理的区域“游走太远”而受到惩罚。
p(x,y|θ)∝p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)
如果是这样,我很困惑,因为是随机变量,对吧?最大化只是找出?x,y,θp(x,y|θ)θ^
在 MLE 中,是一个未知但可以推断的固定量,而不是随机变量。贝叶斯推理将视为随机变量。贝叶斯推理将概率密度函数放入并得到概率密度函数,而不是像 MLE 中的模型的点摘要。也就是说,贝叶斯推理着眼于参数值的全部范围和每个参数值的概率。MLE 假定是给定模型的数据的充分总结。θ^θθ^