为什么最大似然估计最大化概率密度而不是概率

机器算法验证 最大似然
2022-03-15 15:58:04

我试图理解最大似然估计,但看起来我错过了一些相当基本的东西。

假设我们有一个独立同分布的随机样本,其中每个的概率密度函数是其中是一个未知参数。的联合概率密度函数由下式给出:X1,X2,...,XnXif(xi;θ)θX1,X2,...,Xn

f(X1=x1,X2=x2,,Xn=xn)=i=1nf(xi,θ)

在最大似然估计中,我们尝试最大化作为的函数。fθ

问题:为什么我们最大化概率密度而不是概率?以什么方式有意义?

编辑:正如答案中所解释的,从连续概率分布中选择有限数量的样本点的概率为零,因此最大化概率没有意义,但是最大化概率密度如何有意义?

4个回答

f(xi,θ)可能不是概率,它是密度函数。在一般统计中,我们不希望一直对连续随机变量和离散随机变量进行特殊例外处理,特别是因为有一个数学领域为我们提供了一种统一的方法,但又允许我们对这些事情保持严格。

最大化样本密度或可能性的乘积的基本原理很像微积分中积分的基本原理。取高度,它是一个连续值。并且假设我对“正常的最大熵高斯”传播有一些信念,以作为人口中这种分布的基础,并且它通过均值和标准偏差进行参数化。我的身高是有误差的,即使我知道它到原子水平,我也永远无法真正找到与那个单一值相关的概率。我的身高在 5'10" 和 5'11" 之间的概率很小,但在 5'10.25" 和 5'10.75" 之间的概率更小,如果我将这个范围挤压并挤压成一个球,相关概率变为 0,ϵ的总体样本。那么,这个具有高度人口特征的值是如何显示出如此小的概率的呢?一个禅宗的答案可能是:微小的差异构成了整体。通过查看密度或概率的微分,您实际上会发现实现平均值、众数、中位数的随机观察实际上是非常有特征的:它实现了该密度中任何其他值的最高可能性。

您的问题仅适用于连续随机变量。在离散随机变量的情况下,您确实使用概率而不是密度。对于一个连续的随机变量,每个点(变量的一个值)的概率为0,只有区间才有对区间上的密度函数积分得到的正概率。由于样本由点组成,因此您不能乘以概率(结果将始终为 0),并且必须乘以密度(在某种意义上是概率的“代表”,但不能称为概率)。更具体地说:“概率密度”和“密度”是同一个——同一个函数的两个名称。要了解密度函数的含义,您应该了解微积分。密度函数 f(x) 可以解释为点 x 处概率的“斜率”。f(x)dx 可以解释为点 x 的概率,它一方面等于 0(因为 dx 等于 0),但另一方面当在一个区间上积分时变得大于 0。所以 f(x) 只表示概率在 x 点有多“密集”,但不是概率,仍然可以作为概率的“代理”。

我把这个问题读成:为什么我们从密度函数(带有常数)开始改变观点并将其解释为的函数(带有的常数)我们想要最大化?f(x|θ)θθx

直观且绝对不严格,如果我们考虑\boldsymbol{x}周围,则可以被认为是无穷小概率进入那个无穷小区间,所以从某种意义上说,它一个概率(即,当对所有可能的无穷小区间“求和”时,它会产生 1,正如你对概率所期望的那样。这种求和称为微积分中的积分)。dxxf(x|θ)dx

现在你想对最大化,所以你想找到那个值使得:θθ^

θ:f(x|θ^)dxf(x|θ)dx

现在......假设我们相信我们可以在两边除以dx

θ:f(x|θ^)f(x|θ)

最大化的值。θ^θf(x|θ)

同样,这并不严格,但我希望它能给您提供要点。如果这些“无穷小”打扰了你,试着考虑落入有限区间中变为 0 的极限。小...Δxx

这里的关键思想是考虑虽然没有为连续概率分布定义点概率,但我们可以很容易地看到随机变量('X')“围绕”x 的概率等于 f(X=x)dx . 因此,当它与所有点相乘时,似然函数不会受到所有这些 dx 的影响,因此我们可以忽略这些,而只是最大化所有数据点的 f(X=x_i) 的乘积。

希望有帮助,干杯!

参考:https ://ocw.mit.edu/courses/mathematics/18-05-introduction-to-probability-and-statistics-spring-2014/readings/MIT18_05S14_Reading10b.pdf