我很好奇为什么我们总是使用一阶(偏)导数找到 mle 而不检查端点或奇异点或二阶(偏)导数?多谢!
寻找概率密度函数的最大值
这根本不是一个愚蠢的问题。有关可能性可以有两个最大值和最小值的情况,请参阅这篇文章。
在一般理论方法中处理最大似然时,我们倾向于默默地假设似然是一个单峰函数(通常具有最大值)。此外,许多“已知”分布具有对数凹密度(在它们的变量中)。这一点,再加上未知系数在许多情况下与变量具有线性关系(或者我们可以通过一对一的参数化使其成为线性,这使得 MLE 不受影响),使得密度对数凹入未知系数也......这是我们最大化(现在是凹的)对数似然的参数。在这种情况下,满足二阶条件。
但在更具体的理论著作中,出现了新的对数似然,我认为研究人员有责任具体处理是否满足二阶条件的问题。
最后,在应用工作中,软件算法会自行检查 Hessian 在它们定位为静止的点是否为负定(并报告此事),因此至少我们知道我们是否有局部最大值。
首先,针对 Alecos Papadopoulos 的回答,软件是否应该检查是否定的?是的?他们有吗?我怀疑很多人没有。但实际上,如果存在任何约束,包括约束约束,例如参数为非负,并且一个或多个约束在候选解中是“活跃的”(例如,被估计的参数在边界上),那么检查黑森州,不是应该做的。正确的二阶条件是 Z' * Hessian * Z 是半负定的,其中 Z 是主动约束雅可比行列式的零空间的基础。( Z' * Hessian * Z 是 Hessian 投影到活动约束的雅可比行列式的零空间中)。如果唯一的活动约束是边界,则 Z' * Hessian * Z 相当于从 Hessian 中消除边界上的参数行和列。此外,一阶条件要求每个活动边界约束都有正确的符号拉格朗日乘数,这相当于要求下界上的任何参数都需要其梯度分量是非正的,而上界上的任何参数都需要具有其梯度分量。梯度分量是非负的。如果满足所有一阶和二阶条件,那么这只会告诉您它是局部最大值,除非您知道似然函数是凹的(或对数凹的)。这相当于要求下限上的任何参数都需要其梯度分量为非正数,而上限上的任何参数都需要其梯度分量为非负数。如果满足所有一阶和二阶条件,那么这只会告诉您它是局部最大值,除非您知道似然函数是凹的(或对数凹的)。这相当于要求下限上的任何参数都需要其梯度分量为非正数,而上限上的任何参数都需要其梯度分量为非负数。如果满足所有一阶和二阶条件,那么这只会告诉您它是局部最大值,除非您知道似然函数是凹的(或对数凹的)。
假设您找到了 GLOBAL 最大值,但是有几个局部最大值的似然函数值几乎一样高,您认为最大似然估计应该让您对解决方案充满信心吗?软件吐出的置信区间仅相对于该局部(即使是全局)最大值“有效”,并且不会向您提供任何迹象表明相似或更好的值远远超出您形成的任何置信区间。如果存在许多具有相似似然性的不同区域,则最大似然绝对值可能不是非常高的似然。