比较最大似然估计 (MLE) 和贝叶斯定理

机器算法验证 贝叶斯 最大似然
2022-01-23 10:06:20

在贝叶斯定理中,,从我正在阅读的书中,被称为可能性,但我认为这只是给定的条件概率,对吗?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

最大似然估计试图最大化 ,对吧?如果是这样,我很困惑,因为都是随机变量,对吧?最大化只是找出还有一个问题,如果这两个随机变量是独立的,那么就是,对吧?那么最大化就是最大化p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

或者,是一些参数的函数,即,MLE 试图找到可以最大化甚至实际上是模型的参数,而不是随机变量,最大化似然是找到p(x|y)θp(x|y;θ)θp(x|y)yy^

更新

我是机器学习的新手,这个问题是我从机器学习教程中读到的东西的混淆。在这里,给定一个观察到的数据集,目标值是,我尝试在这个数据集上拟合一个模型,所以我假设,给定有一种名为的分布形式,由参数化,即,我假设这是后验概率,对吧?{x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

现在估计的值,我使用 MLE。好的,我的问题来了,我认为可能性是,对吧?最大化可能性意味着我应该选择正确的θp(x|y;θ)θy

如果我对可能性的理解是错误的,请告诉我正确的方法。

4个回答

我认为核心误解源于您在问题前半部分提出的问题。我将这个答案视为对比 MLE 和贝叶斯推理范式。可以在 Gary King统一政治方法论的第 1 章中找到关于 MLE 的非常平易近人的讨论。Gelman 的贝叶斯数据分析可以提供贝叶斯方面的详细信息。

在贝叶斯定理中, 在我正在阅读的书中,被称为可能性,但我认为这只是给定的条件概率,对吧?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

可能性一个条件概率。对于贝叶斯,这个公式描述了给定数据和先验的分布。但由于此表示法不反映您的意图,因此我将使用 ( , ) 作为参数,作为您的数据。yxp(y)θyx

但是您的更新表明是从某个分布中观察到的。如果我们将数据和参数放在贝叶斯规则中的适当位置,我们会发现这些额外的参数对贝叶斯没有问题: xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

我相信这个表达是你在更新中所追求的。

最大似然估计试图最大化,对吗?p(x,y|θ)

是的。MLE 假定 即它把视为一个未知数(和不可知的)常数。相比之下,贝叶斯推理将视为归一化常数(以便概率求和/积分为单位),并将视为关键信息:先验。我们可以将视为一种对优化过程产生惩罚的方式,因为它会因我们认为最合理的区域“游走太远”而受到惩罚。

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

如果是这样,我很困惑,因为是随机变量,对吧?最大化只是找出x,y,θp(x,y|θ)θ^

在 MLE 中,是一个未知但可以推断的固定量,而不是随机变量。贝叶斯推理将视为随机变量。贝叶斯推理将概率密度函数放入并得到概率密度函数而不是像 MLE 中的模型的点摘要。也就是说,贝叶斯推理着眼于参数值的全部范围和每个参数值的概率。MLE 假定是给定模型的数据的充分总结。θ^θθ^

通常是参数的函数。考虑贝叶斯定理的以下重新表述:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

或者更明确地说(关于可能性的概念):

p(θ|x)=L(θ;x)p(θ)p(x)

举一个具体的例子,考虑模型

X|θBinomial(θ)θBeta(α,β)

  • “...被称为似然...”p(x|y)

p(x|y)给定 x 的 y 的可能性说出它的可能性很重要。是的,这只是给定的条件概率。xy

  • “...如果这两个随机变量是独立的,那么就是,对吧?那么最大化就是最大化 ...”p(x|y)p(x)p(x|y)p(x)

如果它们是独立的,即,则相对于是恒定的。在这里要小心,因为您没有指定要最大化的内容 - 从您之前写的内容来看,我假设您正在最大化p(x|y)=p(x)p(x)yy

  • ...或者也许,是一些参数的函数,即,MLE 试图找到可以最大化 ? 甚至说 y 实际上是模型的参数,而不是随机变量,最大化似然性就是找到 ?...p(x|y)θp(x|y;θ)θp(x|y)y^

引入使这成为一个全新的问题。一般来说,这里大部分问题的答案似乎是“视情况而定”。如果需要,我们可以将参数表示为,并相对于它们最大化。同样,如果这是解决手头问题的明智方法,我们可能会遇到一种情况,即我们最大化相对于参数θyp(x|y;θ)θ

来自 STAN 参考手册:

如果先验是一致的,则后验模式对应于参数的最大似然估计 (MLE)。如果先验不均匀,则后验模式有时称为最大后验 (MAP) 估计。