为什么后验密度与先验密度乘以似然函数成正比?

机器算法验证 贝叶斯 条件概率 可能性
2022-01-21 16:55:11

根据贝叶斯定理,P(y|θ)P(θ)=P(θ|y)P(y). 但根据我的计量经济学文本,它说P(θ|y)P(y|θ)P(θ). 为什么会这样?我不明白为什么P(y)被忽略。

2个回答

Pr(y), 的边际概率y, 不是“忽略”。它只是恒定的。除以Pr(y)具有“重新缩放”的效果Pr(y|θ)P(θ)计算被测量为适当的概率,即在[0,1]间隔。如果没有这种缩放,它们仍然是完全有效的相对度量,但不限于[0,1]间隔。

Pr(y)经常被“排除在外”,因为Pr(y)=Pr(y|θ)Pr(θ)dθ通常很难评估,并且通过模拟间接执行集成通常足够方便。

请注意

P(θ|y)=P(θ,y)P(y)=P(y|θ)P(θ)P(y).

因为你有兴趣计算密度θ, 任何不依赖这个参数的函数——比如P(y)― 可以丢弃。这给你

P(θ|y)P(y|θ)P(θ).

丢弃的后果P(y)那是现在的密度吗P(θ|y)已经失去了一些属性,例如在域上的积分为 1θ. 这没什么大不了的,因为人们通常对整合似然函数不感兴趣,而是对最大化它们感兴趣。当你最大化一个函数时,将这个函数乘以某个常数(请记住,在贝叶斯方法中,数据y是固定的),不会改变θ对应于最大点。它确实改变了最大似然的,但话又说回来,人们通常对每个人的相对定位感兴趣θ.