在研究机器学习算法时,我经常看到术语“期望最大化”(或 EM),以及它如何用于估计参数,其中模型依赖于未观察到的潜在变量。
在我看来,它就像是一种概率/统计方式来进行预测(我认为我在混淆某些东西,但这是我的看法)。
这让我想知道 EM 与朴素贝叶斯或逻辑回归等概率分类器究竟有何不同?EM 是独立存在的,还是在机器学习算法中使用的?而且,例如,如果我们使用朴素贝叶斯,我们是否隐含地使用了 EM?
在研究机器学习算法时,我经常看到术语“期望最大化”(或 EM),以及它如何用于估计参数,其中模型依赖于未观察到的潜在变量。
在我看来,它就像是一种概率/统计方式来进行预测(我认为我在混淆某些东西,但这是我的看法)。
这让我想知道 EM 与朴素贝叶斯或逻辑回归等概率分类器究竟有何不同?EM 是独立存在的,还是在机器学习算法中使用的?而且,例如,如果我们使用朴素贝叶斯,我们是否隐含地使用了 EM?
maximum likelihood
在处理 EM 算法之前,您需要了解。简而言之,最大似然是一种估计模型中最可能的参数的方法。例如,如果您有一系列随机且相同分布的高斯随机变量,则高斯均值的最大似然估计量就是样本均值。
当您拟合逻辑回归时,您使用数值方法(例如迭代重加权最小二乘法)来最大化您的对数似然函数。
一切都很好,但如果你有一些潜在的变量,就不可能直接最大化可能性。一个常见的例子是使用隐藏马尔可夫模型对你的 DNA 序列进行建模,其中潜在状态是未知的。
你不能这样做,因为你不知道潜在变量。如果你这样做了,它们就不是潜在的定义。
EM algorithm
是一种在有潜在变量时估计最大似然的数值方法。数学很复杂,但想法很简单。您从参数的一些初始值开始。您更新参数和潜在变量,当对数似然函数的变化低于某个阈值时,算法会收敛。