下面的等式是什么意思?公式的每个部分代表或意味着什么?
对数似然期望的 argmax 是什么意思?
这个方程和它的更多信息可以在Expectation Maximization Wikipedia site中找到,那里的解释如下(公式分为两部分):
来自同一页面的更多解释:
在统计学中,期望最大化 (EM) 算法是一种迭代方法,用于在统计模型中找到参数的最大似然或最大后验 (MAP) 估计,其中模型依赖于未观察到的潜在变量。EM 迭代在执行期望 (E) 步骤和最大化 (M) 步骤之间交替执行,该步骤为使用当前参数估计评估的对数似然的期望创建一个函数,该步骤计算最大化预期对数的参数 -在 E 步骤上找到的可能性。然后使用这些参数估计来确定下一个 E 步骤中潜在变量的分布。
在数学上,E
在您的等式中代表期望值, x|theta
是条件概率,x~data
并且model
在任何一种情况下都是概率源的子标题。使方程最大化的arg max theta
参数theta
。
我认为您想要直观的感觉或解释是正确的?
在考虑了一点之后,我想我会从理解 K-means 算法来解决这个问题。您可能知道 k-means 算法使用一些直接的计算。计算机计算从一点到中心的距离。如果您可以测量点 (x1) 到中心 1 的距离以及从点 (x1) 到中心 2 的距离,那么您就是黄金。因为接下来您要做的就是选择最小参数或距离,这将成为该点所属的组。
因此,在我们的 K-means 示例中,假设一个人选择了分组的数量,k=2。这意味着人类认为只有两种类型的“事物”。因此,所有靠近中心 1 的事物、项目或任何东西都称为“1”。更接近中心 2 的项目现在称为“2”。
在我们的 K-means 案例中,它选择最短的距离。它选择距离的最小值并将未来点分配给“1”或“2”(例如)。
好吧,如果您不想使用距离作为度量,而是刚刚了解了高斯曲线以及如何将您的项目称为来自高斯曲线“1”或“2”,该怎么办。我们可以这样做,对吧?好吧,如果我使用高斯曲线作为我的测量标准,我可以使用概率而不是距离(就像我们在 K-means 中所做的那样)。
现在假设我们开始根据点 1 与中心“1”相关的概率来看待我们的点。假设我们知道中心“1”的均值和标准差。那么我们现在可以使用概率作为我们的新量尺。因此,如果点 x1 与中心“1”相距 1 个标准差,则其 p 值将是(假设)(P of 1 std.dev.)= ~0.35。
现在,如果我们也知道第二个中心“2”的均值和方差会怎样。然后我们可以计算我们的点 x1 成为中心“2”的一部分的概率。假设点 x1 距离中心“2”有 4 个标准差。它的 p 值 = 0.0002。
因此,我会选择 MAXIMUM p 值来将我的点分配给我的中心,而不是我在 K-means 中使用的最小值。
实际上,K-means 类似于 EM,只是它使用距离而不是 p 值。这有帮助吗?PS请原谅语法错误等我为我做的晚了,大声笑。