当我们已经知道平均值是数据的平均值时,为什么还要使用 MLE 来估计平均值?

机器算法验证 自习 正态分布 最大似然
2022-01-22 08:44:32

我在教科书中遇到了一个估计平均值的问题。教科书问题如下:

假设个数据点 , , . . . ,由均值未知但方差已知的一维高斯 pdf 生成。推导出均值的 ML 估计。Nx1x2xN

我的问题是,当我们已经知道平均值是数据的平均值时,为什么我们需要使用 MLE 来估计平均值?该解决方案还说 MLE 估计是数据的平均值。我是否需要做所有累人的最大化 MLE 步骤来找出平均值只是数据的平均值,即(x1+x2++xN)/N

3个回答

当我们已经知道平均值是数据的平均值时,为什么还需要使用 MLE 来估计平均值?

教科书问题指出来自 他们告诉你是已知的,但必须被估计。x1,x2,,xN

x12πσe(xμ)22σ2
σμ

一个好的估计真的那么明显μ^=x¯

这里,x¯=1Ni=1Nxi

这对我来说并不明显,我很惊讶地发现它实际上是 MLE 估计。

另外,考虑一下:如果未知怎么办?在这种情况下,MLE 估计是μσ

σ^2=1Ni=1N(xx¯)2

请注意,此估计器与样本方差估计器有何不同!难道“我们已经知道”样本方差由以下等式给出吗?

s2=1N1i(xx¯)2

在这种情况下,您的样本的平均值恰好也是最大似然估计量。所以做所有的工作来推导 MLE 感觉就像是一个不必要的练习,因为你回到了你对最初使用的平均值的直观估计。好吧,这不是“偶然的”;这是专门选择的,以表明 MLE 估计器通常会导致直观的估计器。

但是,如果没有直观的估计器怎么办?例如,假设您有一个 iid 伽马随机变量样本,并且您对估计形状和速率参数感兴趣。也许您可以尝试从您了解的有关 Gamma 分布的属性中推断出估计量。但是最好的方法是什么?使用估计均值和方差的某种组合?为什么不使用估计的中位数而不是平均值?还是对数均值?这些都可以用来创建某种估算器,但哪个更好呢?

事实证明,MLE 理论为我们提供了一种简洁地获得该问题答案的好方法:获取使观察数据的可能性最大化的参数值(这看起来很直观)并将其用作您的估计。事实上,我们的理论表明,在某些条件下,这将是大约最好的估计量。这比尝试为每种类型的数据找出一个唯一的估计器然后花很多时间担心它是否真的是最佳选择要好得多。

简而言之:虽然 MLE在估计正常数据的平均值的情况下没有提供新的见解,但它通常是一个非常非常有用的工具。

这是一个令人困惑的词汇问题,正如那些直接来自谷歌的引文所示:

平均
名词:平均;复数名词:平均值

  1. 一个数字,表示一组数据中的中心值或典型值,特别是众数、中位数或(最常见的)平均值,它是通过将集合中的值的总和除以它们的数字来计算的。“60 岁以上的比例高于欧盟 19% 的平均水平”同义词:均值、中位数、众数、中点、中心

不是最好的定义,我同意!尤其是在建议将均值作为同义词时。我认为平均值最适合中的数据集或样本,不应用于分布,如 mathfrak{N}(\mu ,中的 \mu 。x¯μN(μ,σ²)

意思是

在数学中,均值根据上下文有几种不同的定义。

在概率和统计中,均值和期望值是同义词,用于指代概率分布或以该分布为特征的随机变量的集中趋势的一种度量。在随机变量 X 的离散概率分布的情况下,均值等于由该值的概率加权的每个可能值的总和;也就是说,它是通过取 X 的每个可能值 x 与其概率 P(x) 的乘积来计算的,然后将所有这些乘积相加,得到μ=xP(x)

对于数据集,术语算术平均值、数学期望和有时平均值同义地用于指代离散数字集的中心值:具体而言,是值的总和除以值的数量。一组数字的算术平均值通常用表示,发音为“x bar”。如果数据集基于从统计总体中抽样获得的一系列观察结果,则算术平均值称为样本平均值(表示为)以将其与总体平均值(表示为)区分开来.x1,x2,...,xnx¯x¯μμx

正如此Wikipedia条目所建议的,均值适用于分布和样本或数据集。数据集或样本的平均值也是与该样本相关的经验分布的平均值。该条目还举例说明了术语之间混淆的可能性,因为它给出了平均值和期望作为同义词。

期望 名词:期望;复数名词:期望

  1. 数学:期望值的另一个术语。

我会将期望的使用限制在通过积分获得的对象上,如但样本的平均值是再次与从该样本得出的经验分布相关的期望。

E[X]=XxdP(x)