鉴于单个样本的概率为 0,为什么 MLE 有意义?

机器算法验证 正态分布 最大似然 密度函数
2022-03-05 18:45:29

这是我在查看一些旧统计数据时产生的一种奇怪的想法,出于某种原因,我似乎想不出答案。

一个连续的 PDF 告诉我们在任何给定范围内观测值的密度。也就是说,例如,如果,那么实现落在之间的概率就是其中是标准法线的密度。XN(μ,σ2)ababϕ(x)dxϕ

当我们考虑对参数进行 MLE 估计时,比如,我们写出、随机变量的联合密度,并将对数似然 wrt 微分到,设置为 0 并求解对于通常给出的解释是“给定数据,哪个参数使这个密度函数最合理”。μNX1..XNμμ

困扰我的部分是:我们的密度为 rv,我们得到特定实现的概率,比如我们的样本,正好是 0。为什么在给定数据的情况下最大化联合密度甚至有意义(因为再次观察到我们的实际样本的概率正好是 0)?N

我能想出的唯一合理化是我们希望 PDF在我们观察到的样本周围尽可能达到峰值,以便该区域中的积分(以及因此在该区域中观察到东西的概率)最高。

1个回答

任何样本的概率等于 0,而一个样本是通过从概率分布中提取来实现的。因此,概率是评估样本及其发生可能性的错误工具。由 Fisher (1912) 定义的统计似然性基于变为零时在长度为的概率的限制参数(引自Aldrich,1997)Pθ(X=x)xδδ

Aldrich, J. (1997) 统计科学 12, 162-176

重新归一化这个概率时似然函数术语仅在 Fisher (1921) 中引入,最大似然在 Fisher (1922) 中引入。δ

尽管他采用“最可能值”的名称,并使用具有平坦先验的逆概率原理(贝叶斯推理),但卡尔弗里德里希高斯已经在 1809 年推导出了正态分布方差参数的最大似然估计量。Hald (1999)在 Fisher 1912 年的论文中提到了其他几种最大似然估计量,该论文设定了一般原则。

最大似然方法的后来证明是,由于样本的重新归一化对数似然收敛到 [大数定律](其中表示 iid 样本的真实密度),最大化似然 [作为的函数] 渐近等效于 [in ] Kullback-Leibler 散度 (x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
在 iid 样本的真实分布和所代表的分布族之间。fθ