最大似然估计、受限最大似然估计和轮廓似然估计

机器算法验证 自习 估计 最大似然 推理 参考
2022-04-04 00:09:42

谁能给我一个很好的参考/彻底的答案,其中给出了最大似然估计、受限最大似然估计和轮廓似然估计方法的详细信息。更具体地说,在哪里

(i) 在所有这三种估计方法中找到离散和连续分布的参数估计量的步骤在符号中一致地给出了详细说明;

(ii) 详细说明一种估计方法相对于另一种估计方法的联系、差异和优势。

谢谢你。

2个回答

最大似然是应用数学优化---学好后者

这是一个太大的领域,我们无法为您提供全面的答案,但也许我们可以为您指明正确的方向以找到您需要的资源。这里首先要强调的是,从数学上讲,所有形式的最大似然都涉及在输入集上最大化一个函数因此,该主题属于数学优化的一般领域。对于连续分布,这种优化是使用标准微积分方法完成的,对于离散分布,它是使用离散微积分(或有时直接优化方法)完成的。

现在,有一些特殊的“技巧”通常用于最大似然分析的上下文中。例如,大多数(但不是全部)最大似然问题涉及最大化作为大量非负部分乘积的函数,因此我们经常从取对数开始并在对数空间中工作。尽管如此,归根结底,这仍然只是在特定环境中应用的数学优化。如果你想在一般情况下擅长它,并且能够解决不完全符合标准情况的问题,那么在数学优化领域给自己一个广泛的教育是个好主意。

数学优化领域绝对是巨大的;您可能会在一个小图书馆里装满有关该主题的书籍和论文。然而,一旦你掌握了基础知识,就有一些明显的起点和一些进一步的进步。从长远来看,我推荐以下课程:

  • 无约束单变量优化:首先学习如何在“无约束”输入集(即,可以是任何实数的输入)上最大化可微的单变量函数。这是通过查看函数的一阶和二阶导数来完成的。有许多介绍微积分的教科书详细介绍了这些材料。

  • 无约束多变量优化:一旦您对单变量函数的优化感到满意,请学习如何在“无约束”输入集(即,可以是任何实数向量的输入)上最大化可微分多变量函数。这是通过查看函数的一阶和二阶导数的多元版本(称为梯度向量和 Hessian 矩阵)来完成的。大多数介绍微积分的教科书将在涵盖单变量微积分之后涵盖多变量(或至少双变量)微积分。

  • 复合函数的优化:一旦您熟悉了无约束优化的基础知识,就可以学习使用链式法则来解决涉及复合函数(即函数的函数)的优化问题。特别是,学习前两个导数的单变量和多变量链式规则,并习惯使用它们来推导复合函数的前两个导数,以便您可以使用标准方法对其进行优化。这里的目标是能够对您的输入参数进行转换,并且仍然能够舒适地优化您正在使用的功能。

  • 受约束的单变量和多变量优化:一旦您对无约束优化和复合函数的优化感到满意,学习如何在受一个或多个非线性方程或不等式约束的输入集上最大化可微函数。这是非线性规划的领域。该领域有几种常用技术,包括输入变量的转换(创建复合函数)、使用拉格朗日方法或Kurush-Kuhn-Tucker 方法的直接分析,以及使用“惩罚函数”的方法。在一些棘手的约束优化问题上练习使用这些方法中的每一种。随着时间的推移,您将了解这些方法中的哪一种最容易应用于不同类型的约束优化问题,并且您将能够使用替代方法得出解决方案。

  • 离散优化:离散优化通常被视为对连续函数进行优化的单独主题,但也有一些明显的相似之处。离散优化通常包含在离散数学书籍中。它要求您了解差分算子(类似于连续函数的微分)和离散微积分。如果您已经对连续函数的标准微积分方法有良好的基础,那么这是相对容易理解的。但是,它本身应该被研究。同样,您应该首先查看无约束的单变量优化,然后是无约束的多元优化,然后是约束优化等。一旦您掌握了基础知识,您就可以查看计算理论中的一些标准离散优化问题(例如,背包问题、装箱问题、变革问题等)。如果你真的很感兴趣,你也可以开始研究与这些问题的计算复杂性相关的一些理论。

  • 数值/模拟方法:一旦您在数学优化的基础理论中有良好的基础,并且您对涉及单变量或多变量函数的约束和无约束问题感到满意,您就可以检查一些数值优化方法。这包括动态编程、MCMC 方法、模拟退火、进化/遗传算法等。一旦你达到这一点,你就进入了专业领域,但是对这些方法的工作原理有一个粗略的了解是很好的(最好有如果需要,可以对其中的一些进行编程)。

至于最大似然 (ML) 和受限最大似然 (REML) 的细节,一旦您获得了数学优化的强大基础背景,这些就会变得非常容易理解。大多数关于概率和统计的普通教科书都会有一个关于估计的部分,其中将 ML 作为主要估计方法之一。讨论 REML 的资源不太常见,但我会在这里给你一些可能有帮助的论文。

  • 最大似然 (ML) 估计:最大似然估计是数学优化的一个应用示例,您可以在其中最大化一些数据关于一个或多个参数的联合密度。如果有一个参数,那么这是一个单变量优化问题,如果有多个参数,那么这是一个多变量优化问题。通常(但不总是)感兴趣的目标函数(联合密度)可以写成非负部分的乘积。特别是,在条件独立数据的情况下,目标函数将是每个单独数据点的密度函数的乘积。因此,我们通常取对数并最大化“对数似然函数”。最大化本身使用标准方法进行,但是在这种情况下,事物有特定的名称 --- e。g.,我们将对数似然的一阶导数称为“分数函数”,将二阶导数的负数称为“信息函数”。几乎所有涵盖统计估计的教科书都涵盖了最大似然估计。

  • 轮廓似然 (PL) 估计:轮廓似然用于一些多元 ML 问题,当我们一次最大化多元函数一个参数时。在这些情况下可以使用的一种通用优化技术是导出单个参数的 MLE 形式(写为数据和其他参数的函数),然后将这个最大化的参数值代入原始似然函数以获得部分最大化该函数的版本不再具有该参数。我们将似然函数的这个部分最大化版本称为“轮廓似然”函数。理解这个函数的使用真的只需要你熟悉使用这种一次一个的方法来优化多元函数。在一些统计教科书中,在寻找多元问题中的 MLE 时提到了轮廓似然性。无论如何,它实际上只是在使用特定技术进行多元优化时出现的东西。

  • 受限最大似然 (REML) 估计:这是最大似然估计的一种变体,涉及尝试估计分布中的参数,同时将一个或多个其他参数视为“有害参数”。在存在未知均值的情况下估计方差分量时,经常使用(并说明)REML。介绍该方法的原始论文是Bartlett (1937),它被应用于Harville (1977)中的一系列问题。Corbeil 和 Searle (2012)中,REML 用于估计混合模型中的方差分量。您可以在Zhang (2015)中找到对该主题的简单介绍

该参考资料将描述 REML 方法(第 17.4 节): http ://www.utstat.toronto.edu/~brunner/books/LinearModelsInStatistics.pdf

您不需要 MLE 的参考。通过最大化对数似然(标准微积分结果)来找到 MLE。我在评论中讨论了配置文件 MLE。