请向我解释贝叶斯估计和最大似然估计的区别?
贝叶斯估计和最大似然估计有什么区别?
这是一个非常广泛的问题,我在这里的回答只是开始触及表面。我将使用贝叶斯规则来解释这些概念。
让我们假设一组概率分布参数, ,最好地解释数据集. 我们可能希望估计参数在贝叶斯法则的帮助下:
解释如下:
最大似然估计
使用 MLE,我们为最大化可能性,,如上式所示。我们可以将此值表示为. 在 MLE 中,是点估计,而不是随机变量。
换句话说,在上面的等式中,MLE 将项作为一个常数,不允许我们注入我们先前的信念,,关于可能的值在估计计算中。
贝叶斯估计
相比之下,贝叶斯估计完全计算(或有时近似)后验分布. 贝叶斯推理处理作为随机变量。在贝叶斯估计中,我们放入概率密度函数并得到概率密度函数,而不是像 MLE 中的单个点。
在所有的输出分布使值成为可能,我们的工作是选择一个我们认为在某种意义上最好的值。例如,我们可以选择期望值假设它的方差足够小。我们可以为参数计算的方差从它的后验分布中,我们可以表达我们对可以用作估计的任何特定值的信心。如果方差太大,我们可以声明不存在一个好的估计.
作为权衡,贝叶斯估计变得复杂,因为我们现在必须处理贝叶斯规则中的分母,即. 这里的证据 - 或证据的概率 - 表示为:
这导致了贝叶斯估计中“共轭先验”的概念。对于给定的似然函数,如果我们可以选择如何表达我们的先验信念,我们必须使用允许我们执行上述整合的形式。COOlSerdash在这篇文章中很好地解释了共轭先验的概念及其实际实现方式。
我认为您在谈论参数推断中的点估计,因此我们可以为数据生成机制假设参数概率模型,但参数的实际值是未知的。
最大似然估计是指对数据使用概率模型,并在一个或多个参数上优化观测数据的联合似然函数。因此可以看出,相对于参数空间中的任何其他参数,估计的参数与观察到的数据最一致。请注意,由于参数不是随机变量,因此不一定将此类似然函数视为“以参数为条件”,因此比较两种不同的参数化来设想各种结果的可能性会更加复杂。事实证明,这是一种哲学上合理的方法。
贝叶斯估计更通用一些,因为我们不一定要最大化似然的贝叶斯类似物(后验密度)。然而,类似类型的估计(或后验模式估计)被视为最大化基于数据的后验参数的概率。通常,以这种方式获得的贝叶斯估计的行为几乎与 ML 的估计完全相同。关键的区别在于贝叶斯推理允许一种明确的方法来结合先验信息。
此外,《最大似然的史诗历史》读起来很有启发性
贝叶斯估计是贝叶斯推理,而 MLE 是一种频率论推理方法。
根据贝叶斯推论,成立,即. 请注意,最大似然估计将证据与先验的比率视为常数(将先验分布设置为均匀分布/扩散先验/无信息先验,例如在玩骰子时),它忽略了先验信念,因此 MLE 被认为是一种频率论技术(而不是贝叶斯)。在这种情况下,先验可能不一样,因为如果样本的大小足够大,MLE就等于MAP(详细推导请参考这个答案)。
MLE 在贝叶斯推理中的替代方案称为最大后验估计(简称 MAP),实际上 MLE 是 MAP 的一种特殊情况,其中先验是一致的,正如我们在上面看到的和Wikipedia中所述:
从贝叶斯推理的角度来看,MLE 是最大后验估计 (MAP) 的一种特殊情况,它假设参数的均匀先验分布。
有关详细信息,请参阅这篇很棒的文章:MLE vs MAP: the connection between Maximum Likelihood and Maximum A Postiori Estimation。
还有一个区别是最大似然容易过拟合,但如果你采用贝叶斯方法,就可以避免过拟合问题。