我是机器学习的初学者。我可以很好地编程,但这个理论很多时候让我感到困惑。
最大似然估计(MLE)、最大后验(MAP) 估计和期望最大化(EM) 算法之间有什么关系?
我认为它们被用作实际进行优化的方法。
我是机器学习的初学者。我可以很好地编程,但这个理论很多时候让我感到困惑。
最大似然估计(MLE)、最大后验(MAP) 估计和期望最大化(EM) 算法之间有什么关系?
我认为它们被用作实际进行优化的方法。
假设您有一些数据$X$和由$\theta$参数化的概率模型,您有兴趣在给定数据的情况下了解$\theta$。使用似然函数描述数据、参数和模型之间的关系
$$ \mathcal{L}(\theta \mid X) = p(X \mid \theta) $$
要找到最合适的$\theta$ ,您必须寻找在给定$X$的情况下最大化$\theta$的条件概率的值。在这里,事情开始变得复杂,因为你可以对$\theta$是什么有不同的看法。您可以将其视为固定参数或随机变量。如果您认为它是固定的,那么要找到它的值,您需要找到使似然函数最大化的$\theta$的值(最大似然法 [ML])。另一方面,如果你把它看作一个随机变量,那么这意味着它也有一些分布,所以你需要对$\theta$的先验分布再做一个假设,即$p(\theta)$,您将使用贝叶斯定理进行估计
$$ p(\theta \mid X) \propto p(X \mid \theta) \, p(\theta) $$
如果您对估计$\theta$的后验分布不感兴趣,而只是对最大化后验概率的点估计感兴趣,那么您将使用最大后验(MAP) 方法来估计它。
至于期望最大化(EM),它是一种算法,可用于最大似然方法来估计某些类型的模型(例如,涉及潜在变量,或在缺失数据的情况下)。
检查以下线程以了解更多信息:
外行术语
中的最大似然估计 (MLE) 最大似然估计和梯度下降之间有什么区别?
简单英语中的贝叶斯和常客推理
谁是贝叶斯主义者?
参数的“最大概率”和“众数”有区别吗?
“可能性”和“概率”有什么区别?
关于可能性的维基百科条目似乎模棱两可
理解期望最大化的数值示例
当我试图向我的朋友提供关于该主题的更全面的答案时,我偶然发现了这篇文章。由于@ Tim♦写的答案已经有点老了,而且这个话题真的很复杂,我将尝试简单介绍EM“算法”及其与最大后验(MAP)和最大似然估计(MLE )的关系)。为此,我将把我的解释分成四个部分。前言,我将简要介绍期望最大化“算法”的一般概念和贝叶斯思维。第二个主要部分将分为MLE、MAP和EM。在里面结论我将指出这些优化方法之间的关系。在整个解释过程中,我将使用各种资源,这有助于我把这个答案放在一起。您可以在最后一章Sources中查看我的参考书目。我将始终包含指向源的链接以及注释,为什么这是一个有用的资源。此外,我将在整个答案中引用(如有必要),以便您可以随时查看我从哪里获得信息。
到目前为止,您可能已经在文本中想知道我在“算法”周围引用了一个引号。原因是,Dempster 等人。[1] 他们自己指出,这个术语可能会受到批评,因为它没有指出明确的编程步骤(第 6 页)。
为了更好地理解期望最大化“算法”的思想,我们需要一些借口。当我们更广泛地看待统计数据时,可以识别(可能在广泛的想法下)两种范式,即。频率论方法和贝叶斯方法。想象一下,你要去商店买 100 袋 M&M。你打开一个袋子,每次吃 M&M 时都会记下颜色。在完成所有 100 袋 M&M 巧克力豆后,您得出结论,您的 M&M 巧克力豆中有 30% 是红色的,20% 是绿色的,25% 是蓝色的,35% 是黄色的。从常客的角度来看,这是先验;这些知识是通过频繁和重复的抽样测量获得的。因此,您希望下次购买 M&M 巧克力豆时会出现类似的颜色分布。这连接“” [2]。
在一个不同的贝叶斯世界中。例如,假设您将有生以来第一次吃 M&M,并且您被问到您期望的颜色分布是什么。按照贝叶斯的观点,你可能会断言,“好吧,我今天穿过公园,看到很多绿树,所以 40% 是绿色的,每棵树都有一些(红色)苹果,所以 25% 是红色的,阳光明媚,所以15% 是黄色的,当我回到家时,它开始向我倾盆大雨,因此 20% 的 M&M 巧克力豆是蓝色的。” 这个类比表明“概率基本上与我们自己对事件的了解有关”[2]。
这种对$\theta$的先前估计(这里是 M&M 包装内的颜色分布)是一个巨大的争论话题。(主观)贝叶斯说这是主观的,因为每个人都有自己的经验/知识,所以总是会导致不同的结果。其他人说,我们必须先检查它,然后根据频率(进入频率论方向)。或者也许一切都是主观的,所以所有模型都是不同的,只是其中一些实际上是有用的 [3]。想想你选择的数据,你想使用的模型等等。这些决定都是基于主观性的。找到的实用解决方案是,如果样本量足够大,则$\theta$的选定起始值不再重要,因为所有$\theta$ s 将全部收敛到相同的值(这也称为大数定律)。
这个思想也被称为贝叶斯法则,是贝叶斯统计的核心。这是它的外观:
\begin{方程} \color{orange}{P(A|B)} = \frac{\color{red}{P(B|A)}\color{green}{P(A)}}{\color {洋红色}{P(B)}} \end{方程}
为了更好地解释该等式的各个部分,我将坚持使用 M&Ms 类比。
现在我们可以像这样阅读我们的贝叶斯规则:
\begin{方程} 后验\ =\ \frac{似然\ *\ 先验/相信}{证据} \end{方程}
主要思想是我们可以使用该模型更新我们的信念。在统计学中,我们可以称之为顺序主义。继续用 M&M 进行类比,这意味着你吃的每一个 M&M,你选择颜色的概率都会更新。这是一个迭代过程,可以不断重复;每次您从包装中挑选的下一个 M&M 的颜色的后验(信念)都会更新(此处更新可能意味着某种颜色的概率增加或减少)。因此,让我们想象一下,您从包装中挑选/食用三种不同的 M&M。现在你可以用这三个 M&M 中的每一个来更新你的信念一次;贝叶斯规则依次包含这三个 M&M。这意味着我们选择/吃一个 M&后)相应地。接下来,我们将挑选/吃第二个 M&M,现在发生的是我们刚刚根据第一个 M&M 的颜色计算的后验,成为我们新的先验,依此类推。
让我们一步一步再做一遍。我们有一个新买的 M&Ms 包装,我们已经假设颜色是由分布$\color{green}{P(A)}$分布的。
\begin{方程} \color{orange}{P(A|B)} = \frac{P(B|A)\color{green}{P(A)}}{P(B)} \end{方程}
现在您打开包装并挑选/吃第一个 M&M $P(A)$,我们相应地更新我们的信念。因为我们现在知道这个 M&M 是什么颜色了。
\begin{方程} \color{red}{P(A|B)} = \frac{P(B|A)\color{orange}{P(A)}}{P(B)} \end{方程}
随着第二个 M&M 被选中,我们将再次更新我们的信念。
\begin{方程} \color{blue}{P(A|B)} = \frac{P(B|A)\color{red}{P(A)}}{P(B)} \end{方程}
你吃的每一个 M&M 巧克力豆都会发生这种情况。正如讲师在 [1] 中指出的,我们今晚的后面就是明天的前面。在更统计的版本中,这个函数可以写成:
\begin{方程} \color{orange}{P(\theta|y)} = \frac{P(y|\theta)\color{green}{P(\theta)}}{\color{magenta}{ P(y)}} \end{方程}
这和上面的没什么不同。我们的数据(这里是 $y$)和我们的未知数(这里是$\theta$)。本质上,我们希望在已知已知(我们的数据$y$ )的情况下获得未知数( $\theta$)。为了计算它,我们可以先去掉$\color{magenta}{P(y)}$。由于我们已经拥有数据,我们可以将其视为固定的(因为应该对已经收集的数据进行哪些更改?)。所以我们可以去掉分母。然而,$\theta$是我们不知道的。我们怎么能推导出我们不知道的东西?这个想法是给它某种分布,因此,我们的未知数可以使用概率来量化。1考虑到这一点,我们可以将原始方程转换为:
\begin{方程} P(\theta|y) \propto L(y|\theta)P(\theta) \end{方程}
首先,我想指出贝叶斯规则的一个属性。它指出“后验密度与似然函数乘以先验密度成比例(表示为$\propto$ ) ”[3]。在统计术语中,似然函数仅表示给定数据$y$的$\theta$的函数。一个很好的例子是统计推断。我们有一些数据(比如说超速),我们想知道,哪些参数($\theta$ s)可以预测一个人是否超速的可能性?
那么,为什么所有这些都与 MAP、MLE 和 EM 之间的关系有关?EM 是一种与贝叶斯推理密切相关的方法,也与 MAP [1, p. 11]。所以很高兴知道,Baysian 有什么样的心态。
1一句非常好的引述是:“ [...] 概率是我们量化不确定性的最佳语言”,来自 [3],第 16 讲。
在借口中,我强调了频率论和贝叶斯思维之间的区别,并且我还简要介绍了贝叶斯思维。接下来,我现在将更深入地研究 MLE、MAP 和 EM 的解释。
最大似然估计的一般要点是在给定一些数据的情况下估计事件的概率。在 M&M 类比中,给定一包 M&M,红色 M&M 的概率是多少。从数学上讲,这看起来像
\begin{方程} P(red\ M\&M|package\ of\ M\&Ms) \propto L(package\ of\ M\&Ms|red\ M\&M) \end{equation}
让我们多动手。一个好主意可能是,只购买 100 包 M&M,然后计算每个包中出现红色 M&M 的次数。因此,我们得出的结论是,包装中的红色 M&M 巧克力豆的数量在某种程度上是均匀分布的。
我们可以看到,在我们测试的 100 个包装中,大约 19 个有 26 个红色 M&M。因此,我们可以说,26 颗红色 M&M 巧克力豆是最可能的价值。所以下一次,我们要买一包M&Ms,这就是我们所期望的。我们预计有 26 个红色 M&Ms [4]。
那么 MLE 在数学方面做了什么?好吧,它被称为最大似然估计器,因此,它试图最大化事件发生的可能性。因此,MLE 返回一个点估计,使似然度最大化。当我们查看任何均匀分布时,我们可以看到,最可能的值始终是均值,在均匀分布中,它始终是使似然最大化的估计量。当我们把它放在一个公式中时,它看起来像这样2:
\begin{方程} \theta_{MLE} = argmax_{\theta}\ P(x|\theta) \end{方程}
听起来像:“把那些值还给我,这会最大化我的数据给定参数的概率。” 有人可能会争辩说,MLE 的想法主要是一种常客的想法。我们只是经常测量,然后我们取平均值(这是最大化可能性的值),我们已经有了 MLE。当我们谈论 MAP 时,这有点不同。
2通常,此函数也采用对数似然。这样做的原因是,它在计算上更容易最大化。由于我没有解释,我将在这个公式中留下日志。
现在假设你在报纸上读到一些新闻,说生产 M&M 巧克力豆的公司红色的颜色很低。因此,下次您购买 M&M 包装时,您会问自己“该包装中有多少红色 M&M?”,您不能只取平均值,如 MLE 部分所述。有了这些低颜色的信息,您已经可以猜到,包装内的红色 M&M 巧克力不再均匀分布。您宁愿假设这样的分布:
如果我们尝试使用 MLE 来预测什么会最大化我们的可能性,那么我们将非常糟糕。但是由于前言中建立的贝叶斯思想,我们可以解释这个事实。我们可以告诉我们的函数,它必须针对该分布进行调整。
\begin{方程} \theta_{MAP} = argmax_{\theta}\ P(x|\theta)g(\theta) \end{方程}
$g(\theta)$是我们的先验。更具体地说,我们相信我们正在处理特定的概率分布函数。由于它也是一个最大化函数,MAP 还返回一个点估计,实际上是那些最大化后验分布的点。3 MAP 的想法是,因此我们给它一些先验信息,而不是贝叶斯主义者喜欢的想法。
3 @ Tim♦已经给出了拟合问题的链接,它给出了“可能性”和“概率”之间差异的答案。
期望最大化“算法”是近似参数的想法,以便我们可以创建一个最适合我们拥有的数据的函数。所以 EM 尝试的是估计那些最大化后验分布的参数( $\theta$ s)。如果我们只是处理数据的子集,这很有帮助。4 [5] 使用抛硬币的例子很好地表示了 EM,我想在这里展示。
这张图取自论文什么是期望最大化算法?作者 Do & Batzoglou (2008, p. 898)。
让我先描述一下这张图片,然后再深入探讨一下这种方法背后的数学原理。我们可以在这里看到,我们最初为$\hat{\theta}_A^{(0)}$和$\hat{\theta}_B^{(0)}$选择了两个随机变量。这些是这枚硬币在投掷时出现正面的概率。接下来,我们有一些数据,但我们不知道是哪个硬币创建了这些数据。5但是,我们可以计算每个硬币的期望值。所以让我们首先计算第一个数据集[HTTTHHTHTH]属于硬币 a 的期望,如果硬币 a 有0.6 美元的概率在抛出后返回正面:
\begin{方程} \frac{0.6^{5}*(1-0.6)^{10-5}}{0.6^{5}*(1-0.6)^{10-5}+0.5^{5} *0.5^{10-5}} = 0.45 \end{方程}
“算法”使用这个函数来计算硬币 a 的所有期望值。硬币 b 的期望值很容易计算,因为我们可以做 1 - 硬币 a 的概率。一旦我们拥有所有数据,我们就可以将我们的期望乘以我们想要测量的事件数量。意思是,我们计算:
\begin{方程} 0.45 * 5 = 2.2 \end{方程}
现在我们知道,如果第一个数据集属于硬币 a,我们会期望$2.2$乘以正面和$2.2$乘以反面6。一旦我们有了完整的表,我们所做的就是做 MLE。我们总结了每个硬币正面和反面出现的值,并计算每个硬币正面的概率。这也称为 M(最大化)步骤。我们刚刚计算的这两个概率现在是我们的新值,我们用它重新运行我们的期望计算。我们可以根据需要重复多次。这样做的好处是,最终我们可以逼近真实的$\theta$ s,即。经过十次迭代后,硬币 a 的后验最大值为 0.8 美元。
4在他们的论文 Dempster 等人的第一页上。[1] 将数据子集定义为两个样本空间,而第二个通过转换$y$显示。
5应该注意的是,EM 算法也被视为一种聚类方法,因为我们现在可以最大化数据属于硬币 a 或硬币 b 的期望。
6 $0.45 * (10-5) = 2.2$
在解释了 MLE、MAP 和 EM 之后,现在让我们讨论它们的关系以及为什么首先回顾贝叶斯的想法很重要。MAP 函数本质上源自贝叶斯规则,如前言所示。当我们再次考虑 MAP 的功能时,我们可以看到它只是将可能性与先验相乘。然而,当使用均匀分布作为先验时,MAP = MLE。因此,MLE 只是 MAP 的一个特殊版本,使用均匀分布。EM 还假设给定数据是均匀分布的,因此它使用 MLE。写完之后,登普斯特等人。[1] 多次指出,EM“算法”可以很容易地更改为使用 MAP,这意味着数据的不同概率分布。
[1]登普斯特等人。1977年
注意:这是论文,大多数参考文献都指向该论文。它真的很重数学,并且可能以最数学的方式解释了期望最大化“算法”。
[2] https://jakevdp.github.io/blog/2014/03/11/frequentism-and-bayesianism-a-practical-intro/
注意:这是对贝叶斯与频率论的很好的介绍。与此处概述的内容相比,它更深入地研究了该主题。此外,它是由著名的 scipy Python 包的作者和开发者 Jake Vanderplas 编写的。
[3] https://cs109.github.io/2015/
注意:此资源是机器学习高级主题介绍的绝佳资源。他们就阅读哪些书提供了非常好的建议(这些书大多在网络上免费提供)并且他们解释了很多主题,以便他们可以理解。这是推荐的阅读/收听来源!
[4] http://www.bdhammel.com/mle-map/
注意:在这个来源中,MLE 和 MAP 之间的区别也得到了很好的解释。
[5] https://datajobs.com/data-science-repo/Expectation-Maximization-Primer-[Do-and-Batzoglou].pdf
注意:这篇论文很短,但是很好地可视化和解释了 EM 算法是什么。