最大似然估计如何具有近似正态分布?

机器算法验证 正态分布 估计 最大似然
2022-03-04 14:44:12

我一直在阅读有关 MLE 作为生成拟合分布的方法。

我看到一个声明说最大似然估计“具有近似正态分布”。

这是否意味着如果我对我的数据和我试图拟合的分布族重复应用 MLE,我得到的模型将是正态分布的?分布序列究竟如何具有分布?

1个回答

估计器是统计数据,并且统计数据具有抽样分布(也就是说,我们谈论的是您不断抽取相同大小的样本并查看您获得的估计分布的情况,每个样本一个)。

引用是指样本量接近无穷大时 MLE 的分布。

所以让我们考虑一个明确的例子,指数分布的参数(使用尺度参数化,而不是速率参数化)。

f(x;μ)=1μexμ;x>0,μ>0

在这种情况下μ^=x¯. 该定理为我们提供了样本量n越来越大,分布(适当标准化)X¯(在指数数据上)将变得更加正常。

在此处输入图像描述

如果我们采取重复样本,每个样本大小为 1,则样本均值的结果密度在左上图中给出。如果我们采用重复样本,每个样本大小为 2,则样本均值的结果密度在右上角的图中给出;到 n=25 时,在右下角,样本均值的分布已经开始看起来更加正常。

(在这种情况下,由于 CLT,我们已经预料到会出现这种情况。但是1/X¯也必须接近正态性,因为它是速率参数的 MLλ=1/μ...而且您无法从 CLT 中获得该信息-至少不能直接获得*-因为我们不再谈论标准化手段,这就是 CLT 的意义所在)

现在考虑已知尺度均值的伽马分布的形状参数(这里使用均值和形状参数化而不是尺度和形状)。

在这种情况下,估计器不是封闭形式,CLT 不适用于它(同样,至少不是直接*),但似然函数的 argmax 是 MLE。随着您采集越来越大的样本,形状参数估计的采样分布将变得更加正常。

在此处输入图像描述

这些是来自 10000 组对 gamma(2,2) 的形状参数的 ML 估计的核密度估计,对于指定的样本大小(前两组结果非常重尾;它们已经被截断了一些,所以你可以看到模式附近的形状)。在这种情况下,模式附近的形状到目前为止只是缓慢变化 - 但极端尾部已经显着缩短。这可能需要一个n几百开始看起来正常。

--

* 如前所述,CLT 并不直接适用(显然,因为我们一般不处理手段)。但是,您可以进行渐近论证,将某些内容扩展为θ^在一个系列中,提出与高阶项相关的适当论证,并调用一种形式的 CLT 以获得标准化版本的θ^接近常态(在合适的条件下......)。

另请注意,当我们查看小样本时看到的效果(至少与无穷大相比较小)——正如我们在上面的图表中看到的那样,在各种情况下定期向正态发展——这表明如果我们考虑了标准化统计量的 cdf,可能有一个版本,例如 Berry Esseen 不等式,它基于与 MLE 使用 CLT 参数的方式类似的方法,该方法将为采样分布接近正态性的速度提供界限。我还没有看到类似的东西,但发现它已经完成并不会让我感到惊讶。