作为期望的最大似然

机器算法验证 可能性 最大似然 期望值
2022-03-04 09:56:53

我正在阅读深度学习(Ian Goodfellow 和 Yoshua Bengio 和 Aaron Courville,2016 年)一书。我没有统计背景,所以我无法遵循这部分:

在此处输入图像描述

为什么只用公式(5.58)除以m 1 可以得到公式(5.59)。

作为后续问题,许多涉及求和的方程都用期望来表示。有没有一种通用的方法来解释如何将总和表示为期望?

3个回答

然后在 (5.58) 中最大化的东西,在我们不相关地除以一个常数之后,是 现在,让我们引入一个新的随机变量,它遵循样本的经验分布的概率,等。然后注意等于 f(x,θ)=logpmodel(x;θ)

(*)1mi=1mf(x(i),θ).
Y1mx(1)1mx(2)()
i=1m1mf(x(i))=i=1mP(Y=x(i))f(x(i))=EYp^dataf(Y).
这就是(5.59)中最大化的东西。他们的符号指的是样本点的这种经验分布。p^data

Dougal 的回答很好地解释了经验分布。这个答案只是更多地强调了期望何时是总和与它们何时是积分之间的联系,解决了“解释如何[或何时]总和可以表示为期望[反之亦然]”。

随机变量/向量的期望只是加权平均值。如果你的随机变量/向量,比如说,是离散的概率质量函数的平均值Xp(x)h(X)

(1)E[h(X)]=xh(x)p(x).

另一方面,如果是连续的,则 其中是概率密度函数。X

E[h(X)]=h(x)f(x)dx,
f(x)

在您的情况下是从离散数据集中选择的一个特定值/行/观察值该数据集现在位于内存中,不再是随机的。就像 Dougal 解释的那样,您可以考虑从内存中预先存在的数据集中重新采样一个点/值/行/观察值。x

您的转换是您的真实概率质量函数/权重是(数据的每一行具有相同的权重)。将这些代入 (1) 得到: 这也解释了为什么有时人们将最大似然估计量称为最小交叉熵估计量。h(x)=logpmodel(x;θ)p^data(x)=1m

E[logpmodel(X;θ)]=x1mlogpmodel(x;θ).

这与经典统计的情况不同,他们认为数据是随机的,而不是重采样值是随机的。在经典框架中,一旦数据到达,将非随机数据点插入 pdf/pmf 会给您一个“可能性”。这个新词用来强调这个函数被认为是参数中的一个函数。经典统计谈论最大化似然性,这在计算上是等效的,但它们以不同的方式区分什么是随机的和什么是非随机的。

正如书中所说,乘以一个常数(在这种情况下为)不会改变最大化参数,即最大化目标1/mθ

对于第二个问题,假设以相等的概率取值,即那么 其中期望假设每个以相等的概率出现x{x1,,xm}Pr{x=xi}=p(xi)=1/m

i=1mxi=mi=1m1mxi=mi=1mp(xi)xi=mE[x]
xi