一般来说,矩方法似乎只是将观察到的样本均值或方差与理论矩相匹配以获得参数估计。我收集到,这通常与指数族的 MLE 相同。
然而,很难找到矩量法的明确定义以及为什么 MLE 似乎受到普遍青睐的明确讨论,即使找到似然函数的模式可能更棘手。
这个问题MLE 比 Moment 方法更有效吗?引用唐纳德·鲁宾教授(哈佛大学)的话,说自 40 年代以来,每个人都知道 MLE 击败了 MoM,但我很想知道历史或原因。
一般来说,矩方法似乎只是将观察到的样本均值或方差与理论矩相匹配以获得参数估计。我收集到,这通常与指数族的 MLE 相同。
然而,很难找到矩量法的明确定义以及为什么 MLE 似乎受到普遍青睐的明确讨论,即使找到似然函数的模式可能更棘手。
这个问题MLE 比 Moment 方法更有效吗?引用唐纳德·鲁宾教授(哈佛大学)的话,说自 40 年代以来,每个人都知道 MLE 击败了 MoM,但我很想知道历史或原因。
瞬间的方法是什么?
维基百科上有一篇很好的文章。
https://en.m.wikipedia.org/wiki/Method_of_moments_(统计)
这意味着您通过选择参数来估计总体参数,以使总体分布具有与样本中观察到的矩相等的矩。
它与 MLE 有何不同
最大似然估计最小化似然函数。在某些情况下,这个最小值有时可以通过将总体参数设置为等于样本参数来表示。
例如,在估计分布的平均参数并使用 MLE 时,我们通常会使用. 然而,情况不一定总是如此(相关:https ://stats.stackexchange.com/a/317631/164061尽管在示例的情况下,泊松分布、MLE 和 MoM 估计值一致,并且许多其他人也是如此)。例如,用于估计的 MLE 解决方案在对数正态分布中是:
而 MoM 解决方案正在解决
因此,MoM 是估计参数的一种实用方法,通常导致与 MLE 完全相同的结果(因为样本的矩通常与总体的矩重合,例如样本均值分布在总体均值周围,并且最多一些因素/偏差,效果很好)。MLE 具有更强大的理论基础,例如允许使用Fisher 矩阵(或其估计)来估计误差,并且在回归问题的情况下它是一种更自然的方法(我没有尝试过,但我猜用于在简单线性回归中求解参数的 MoM不容易工作,可能会产生不好的结果。在 superpronker 的回答中,这似乎是通过对函数进行一些最小化来完成的。对于 MLE,这种最小化表示更高的概率,但我想知道它是否代表 MoM 的类似事物)。
在 MoM 中,选择估计量以使某些函数的条件期望等于 0。例如. 通常期望是有条件的. 通常,这被转换为使用权重矩阵最小化此期望中的二次形式的问题。
在 MLE 中,估计器最大化对数似然函数。
在广义上,MLE 做出更严格的假设(全密度),因此如果满足假设,通常鲁棒性较差但效率更高(它实现了渐近方差的 Kramer Rao 下限)。
在某些情况下,这两者是一致的,OLS 是一个值得注意的例子,其中解析解是相同的,因此估计器的行为方式相同。
在某种意义上,您可以将 MLE(几乎在所有情况下)视为 MoM 估计器,因为估计器将对数似然函数的梯度的期望值设置为零。从这个意义上说,存在密度不正确但 MLE 仍然一致的情况,因为仍然满足一阶条件。那么MLE被称为“准ML”。
抱歉,我不能发表评论。。
MLE 做出更严格的假设(全密度),因此如果满足这些假设,通常鲁棒性较差但效率更高
实际上,在 MITx“统计基础”中,我们被教导相反,MoM 依赖于特定的矩方程,如果我们选择错误的密度,我们就完全错了,而 MLE 更有弹性,因为我们在所有情况下都会最小化KD背离..