准最大似然估计(QMLE)背后的思想和直觉

机器算法验证 最大似然 参考 直觉 准最大似然
2022-01-30 16:06:38

问题:准最大似然估计(QMLE;也称为伪最大似然估计,PMLE)背后的思想和直觉是什么?当实际的误差分布与假设的误差分布不匹配时,是什么使估计器起作用?

QMLE的Wikipedia 站点很好(简明扼要,直截了当),但我可以使用更多的直觉和细节,也许还有一个插图。其他参考是最受欢迎的。(我记得翻过很多计量经济学教科书来寻找关于 QMLE 的资料,令我惊讶的是,QMLE 只在其中一两本中涉及,例如 Wooldridge “横截面和面板数据的计量经济学分析”(2010 年),第 13 章第 11 节,第 502-517 页。)

3个回答

“当实际误差分布与假设误差分布不匹配时,是什么让估计器起作用?”

原则上,QMPLE不能“工作”,因为它是一个“好”的估计器。围绕 QMLE 开发的理论很有用,因为它导致了错误规范测试。

QMLE 所做的当然是一致地估计使真实分布与指定分布之间的 Kullback-Leiber 散度最小化的参数向量。这听起来不错,但是最小化这个距离并不意味着最小化的距离不会很大。

尽管如此,我们读到在很多情况下,QMLE 是真实参数向量的一致估计。这必须逐案评估,但让我给出一个非常普遍的情况,这表明 QMLE 中没有任何固有的东西可以使其与真实向量保持一致......

......事实上,它与另一个始终一致的估计量一致(保持遍历平稳样本假设):老式的矩量法估计量。

换句话说,当对分布有疑问时,要考虑的策略是“始终指定感兴趣参数的最大似然估计量与矩量法估计量重合的分布”:无论多么离谱是您的分布假设,估计量至少是一致的。

您可以将此策略带到荒谬的极端:假设您有一个来自随机变量的非常大的独立同分布样本,其中所有值都是正数。继续假设随机变量是正态分布的,并对均值和方差应用最大似然:您的 QMLE 将与真实值一致。

当然,这引出了一个问题,为什么要假装应用 MLE,因为我们本质上所做的是依赖并隐藏在矩量法的优势(这也保证了渐近正态性)的背后?

在其他更精细的情况下,如果我们可以说我们已经正确指定了条件均值函数而不是分布,那么 QMLE 可能对感兴趣的参数保持一致(例如,Pooled Poisson QMLE 就是这种情况 - 参见 Wooldridge) .

74 年 Wedderburn的原始论文是一本关于拟似然性主题的优秀读物。他特别观察到,对于正则指数族,似然方程的解是通过求解以下形式的一般分数方程获得的:

0=i=1nS(β,Xi,Yi)=DTW(Yg1(XTβ))
在哪里D=βg1(XTβ)W=V1. 这个符号起源于 McCullogh 和 Nelder 在原始文本“广义线性模型”中的工作。M&N 描述了使用高斯牛顿类型算法求解这些类型的函数。

然而,有趣的是,这个公式听从了一种矩量法类型的估计器,在这种估计器中,人们可以简单地在括号表达式的 RHS 中“设置他们想要估计的东西”,并相信该表达式会收敛到“那个有趣的事物”。这是估计方程的一种原始形式。

估计方程并不是一个新概念。事实上,早在 1870 年代和 1900 年代早期就尝试使用泰勒展开从 EE 中正确推导出极限定理,但缺乏与概率模型的联系是批评评论家争论的原因。

Wedderburn 展示了几个非常重要的结果:即使用第一个展示在一般框架中的得分方程S可以用准分数代替,不对应于任何概率模型,而是回答感兴趣的问题,产生统计上可信的估计。对一般分数进行反向转换会产生一般 qMLE,它来自正确到比例常数的可能性。该比例常数称为“色散”。Wedderburn 的一个有用的结果是,与概率假设的强烈背离会导致大或小的离散。

然而,与上述答案相反,拟似然性被广泛使用。McCullogh 和 Nelder 中的一个很好的讨论涉及马蹄蟹的种群建模。与人类不同,它们的交配习惯很奇怪:许多雄性可能会以无法测量的“集群”聚集到一个雌性身边。从生态学家的角度来看,实际观察这些集群远远超出了他们的工作范围,但通过捕获和释放来预测种群规模仍然是一项重大挑战。事实证明,这种交配模式导致泊松模型具有显着的欠分散,也就是说,方差是成比例的,但不等于平均值​​。

从某种意义上说,离散度被认为是令人讨厌的参数,因为我们通常不会基于它们的值进行推断,并且在单个可能性中联合估计它们会导致高度不规则的可能性。拟似然是一个非常有用的统计领域,特别是考虑到后来关于广义估计方程的工作。

我有一个与 Richard Hardy 在此处发布的原始问题类似的问题。我的困惑是,从准 ML 估计的参数可能不存在于未知的“真实”分布中。在这种情况下,“一致性”究竟是什么意思?估计的参数收敛到什么?

在检查了一些参考资料后(White (1982)应该是原始文章之一,但被封闭了。我发现的一个有用的说明是http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf),我的想法用简单的英语如下:在承认我们假设的分布只是对未知真实分布的近似之后,我们可以做的实际事情是找到参数值以最小化它们的距离(Kullback-Leibler distance准确地说)。该理论的美妙之处在于,在不需要知道真实分布的情况下,来自准 ML 的估计参数收敛到这个距离最小化参数(当然,该理论还有其他有用的结果,例如估计的渐近分布参数等,但它们不是我在这里问题的重点)。

正如 Alecos Papadopolous 在上面的回复中提到的那样,最小距离仍然可能很大。因此,我们假设的分布可能与真实分布的近似值很差。准 ML 所能做的就是使我们假设的分布尽可能接近未知的真实分布。希望我在这里分享的经验可能对其他有类似困惑的人有所帮助。