贝叶斯估计和最大似然估计有什么区别?

机器算法验证 贝叶斯 最大似然
2022-01-18 03:52:18

请向我解释贝叶斯估计和最大似然估计的区别?

3个回答

这是一个非常广泛的问题,我在这里的回答只是开始触及表面。我将使用贝叶斯规则来解释这些概念。

让我们假设一组概率分布参数, θ,最好地解释数据集D. 我们可能希望估计参数θ在贝叶斯法则的帮助下:

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

解释如下:

最大似然估计

使用 MLE,我们为θ最大化可能性,p(D|θ),如上式所示。我们可以将此值表示为θ^. 在 MLE 中,θ^是点估计,而不是随机变量。

换句话说,在上面的等式中,MLE 将项p(θ)p(D)作为一个常数,不允许我们注入我们先前的信念,p(θ),关于可能的值θ在估计计算中。

贝叶斯估计

相比之下,贝叶斯估计完全计算(或有时近似)后验分布p(θ|D). 贝叶斯推理处理θ作为随机变量。在贝叶斯估计中,我们放入概率密度函数并得到概率密度函数,而不是像 MLE 中的单个点。

在所有的θ输出分布使值成为可能p(θ|D),我们的工作是选择一个我们认为在某种意义上最好的值。例如,我们可以选择期望值θ假设它的方差足够小。我们可以为参数计算的方差θ从它的后验分布中,我们可以表达我们对可以用作估计的任何特定值的信心。如果方差太大,我们可以声明不存在一个好的估计θ.

作为权衡,贝叶斯估计变得复杂,因为我们现在必须处理贝叶斯规则中的分母,即evidence. 这里的证据 - 或证据的概率 - 表示为:

p(D)=θp(D|θ)p(θ)dθ

这导致了贝叶斯估计中“共轭先验”的概念。对于给定的似然函数,如果我们可以选择如何表达我们的先验信念,我们必须使用允许我们执行上述整合的形式。COOlSerdash在这篇文章中很好地解释了共轭先验的概念及其实际实现方式。

我认为您在谈论参数推断中的点估计,因此我们可以为数据生成机制假设参数概率模型,但参数的实际值是未知的。

最大似然估计是指对数据使用概率模型,并在一个或多个参数上优化观测数据的联合似然函数。因此可以看出,相对于参数空间中的任何其他参数,估计的参数与观察到的数据最一致。请注意,由于参数不是随机变量,因此不一定将此类似然函数视为“以参数为条件”,因此比较两种不同的参数化来设想各种结果的可能性会更加复杂。事实证明,这是一种哲学上合理的方法。

贝叶斯估计更通用一些,因为我们不一定要最大化似然的贝叶斯类似物(后验密度)。然而,类似类型的估计(或后验模式估计)被视为最大化基于数据的后验参数的概率。通常,以这种方式获得的贝叶斯估计的行为几乎与 ML 的估计完全相同。关键的区别在于贝叶斯推理允许一种明确的方法来结合先验信息。

此外,《最大似然的史诗历史》读起来很有启发性

http://arxiv.org/pdf/0804.2996.pdf

贝叶斯估计是贝叶斯推理,而 MLE 是一种频率论推理方法。

根据贝叶斯推论,f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)成立,即likelihood=posteriorevidenceprior. 请注意,最大似然估计将证据与先验的比率视为常数(将先验分布设置为均匀分布/扩散先验/无信息先验,p(θ)=1/6例如在玩骰子时),它忽略了先验信念,因此 MLE 被认为是一种频率论技术(而不是贝叶斯)。在这种情况下,先验可能不一样,因为如果样本的大小足够大,MLE就等于MAP(详细推导请参考这个答案)。

MLE 在贝叶斯推理中的替代方案称为最大后验估计(简称 MAP),实际上 MLE 是 MAP 的一种特殊情况,其中先验是一致的,正如我们在上面看到的和Wikipedia中所述:

从贝叶斯推理的角度来看,MLE 是最大后验估计 (MAP) 的一种特殊情况,它假设参数的均匀先验分布。

有关详细信息,请参阅这篇很棒的文章:MLE vs MAP: the connection between Maximum Likelihood and Maximum A Postiori Estimation

还有一个区别是最大似然容易过拟合,但如果你采用贝叶斯方法,就可以避免过拟合问题。