使用对数似然与似然的理论动机

机器算法验证 可能性 贝叶斯 可能性
2022-01-19 07:42:52

我试图在更深层次上理解统计和概率论中对数似然(也许更普遍的是对数概率)的普遍性。对数概率随处可见:我们通常使用对数似然进行分析(例如最大化),Fisher 信息是根据对数似然的二阶导数定义的,熵是预期的对数概率, Kullback-Liebler 散度涉及对数概率,预期散度是预期对数似然等。

现在我很欣赏许多实际方便的理由。许多常见和有用的 pdf 都来自指数族,这在对数转换时会导致优雅的简化术语。总和比产品更容易处理(尤其是微分)。对数概率比直接概率具有很大的浮点优势。对pdf进行对数转换通常会将非凹函数转换为凹函数。但是 log-probs 的理论原因/理由/动机是什么?

作为我的困惑的一个例子,考虑费舍尔信息(FI)。直觉 FI 的通常解释是,对数似然的二阶导数告诉我们对数似然的“峰值”程度:高峰值对数似然意味着 MLE 是明确规定的,我们相对确定它的值,而几乎平坦的对数似然(低曲率)意味着许多不同的参数值几乎与 MLE 一样好(就对数似然而言),因此我们的 MLE 更加不确定。

这一切都很好,但是仅仅找到似然函数本身的曲率(不是对数变换)不是更自然吗?乍一看,对对数变换的强调似乎是武断和错误的。当然,我们对实际似然函数的曲率更感兴趣。Fisher 使用分数函数和对数似然的 Hessian 函数的动机是什么?

答案是不是很简单,最终,我们从对数似然渐近得到了很好的结果?例如,Cramer-Rao 和 MLE/后部的正态性。还是有更深层次的原因?

4个回答

这实际上只是对数似然的便利,仅此而已。

我的意思是求和与乘积的便利性:,求和在许多方面更容易处理,例如微分或积分。我想说,这不仅仅是指数家庭的便利。ln(ixi)=ilnxi

当您处理随机样本时,可能性的形式为:,因此对数似然会将这个乘积分解为总和,这更容易操作和分析。我们只关心最大值的点,最大值并不重要,因为我们可以应用任何单调变换,例如对数。L=ipi

关于曲率直觉。它最终与对数似然的二阶导数基本相同。

更新:这就是我在曲率上的意思。如果你有一个函数,那么它的曲率将是(参见Wolfram 上 的(14)y=f(x)

κ=f(x)(1+f(x)2)3/2

对数似然的二阶导数:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

在最大值点,一阶导数显然为零,​​所以我们得到: \ kappa_似然性和对数似然性的二阶导数是一回事。

κmax=f(xmax)=Af(xmax)

另一方面,如果似然的一阶导数不仅在最大值点附近而且在最大值点附近都很小,即似然函数是平坦的,那么我们得到: 现在平面似然对我们来说不是一件好事,因为它使得在数值上找到最大值变得更加困难,并且最大似然并不比它周围的其他点好,即参数估计误差很高。

κf(x)Af(x)

同样,我们仍然有曲率和二阶导数关系。那么,Fisher 为什么不看似然函数的曲率呢?我认为这也是出于方便的原因。由于总和而不是乘积,更容易操纵对数似然。因此,他可以通过分析对数似然的二阶导数来研究似然曲率。虽然方程对于曲率看起来非常简单,但实际上您正在对乘积进行二阶导数,这比二阶导数的总和更复杂。κmax=f(xmax)

更新 2:

这是一个演示。我画了一个(完全组成的)似然函数,它的 a)曲率和 b)它的对数的二阶导数。在左侧,您会看到狭窄的可能性,而在右侧,您会看到广泛的可能性。您会看到 a) 和 b) 在最大似然点处是如何收敛的,因为它们应该如此。更重要的是,您可以通过检查似然函数的二阶导数来研究似然函数的宽度(或平坦度)。正如我之前所写,后者在技术上比前者更易于分析。

毫不奇怪,对数似然的更深的二阶导数信号在其最大值附近更平坦的似然函数,这是不希望的,因为它会导致更大的参数估计误差。

在此处输入图像描述

MATLAB 代码,如果您想重现绘图:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

更新 3:

在上面的代码中,我将一些任意钟形函数插入曲率方程,然后计算其对数的二阶导数。我没有重新缩放任何东西,这些值直接来自方程式,以显示我之前提到的等价性。

是 Fisher 在大学期间发表的第一篇关于可能性的论文,“On an Absolute Criterion for Fitting Frequency Curves”,数学信使,41: 155-160 (1912)

正如我一直坚持的那样,他没有提到对数概率与熵和其他奇特主题的任何“更深”的联系,他也没有提供他的信息标准。他只是将方程放在第 54 页上,然后继续讨论最大化概率。在我看来,这表明他使用对数只是作为分析联合概率本身的一种方便方法。它在连续曲线拟合中特别有用,为此他在 p.55 上给出了一个明显的公式: 祝你好运分析这种可能性(或概率根据费舍尔)没有日志!logP=1nlogp

logP=logfdx
P

在阅读这篇论文时需要注意的一点是,他只是从最大似然估计工作开始,并在随后的 10 年中做了更多工作,所以据我所知,即使是 MLE 这个词也没有被创造出来。

附加点一些常用的概率分布(包括正态分布、指数分布、拉普拉斯分布等)是对数凹的这意味着它们的对数是凹的。这使得最大化对数概率比最大化原始概率更容易(这在最大似然或最大后验方法中特别方便)。举个例子,使用牛顿法直接最大化多元高斯分布可能需要大量的步骤,而最大化抛物面(多元高斯分布的对数)只需要一步。

对数似然的理论重要性可以从(至少)两个角度看出:渐近似然理论和信息论。

其中较早的(我相信)是对数似然的渐近理论。我认为,在费舍尔将最大可能性设定为走向 20 世纪的主导地位之后,信息论已经开始了。

在似然理论中,抛物线对数似然在推理中具有核心地位。Lucien Le Cam 在阐明二次对数似然在渐近理论中的重要性方面发挥了重要作用。

当您有二次对数似然时,MLE 的曲率不仅可以定性地告诉您估计参数的精确度,而且我们还知道误差呈正态分布,方差等于曲率的倒数。当对数似然近似为二次时,我们称这些结果近似或渐近地成立。

第二个原因是对数似然(或对数概率)在信息论中的突出地位,它是用于衡量信息内容的主要量。

熵有一种变体,称为Kullback-Liebler 散度,它通过最大似然估计最小化。特别是,如果真实数据分布是 ,那么参数族的“最接近”分布(由 Kullback-Liebler 散度测量)给出,其中是最大似然估计。ggf(θ)f(θ^)θ^

最后,对数似然是各种模型选择标准(如AICBIC )中使用的数量。本质上,这些标准中的每一个都将额外的参数/自由度等同于的某个倍数。lnL^

因此,对数似然除了是一种有用的数值转换外,还与推理和信息论有着深厚的联系。

TLDR:求和比乘积要容易得多,因为导数运算符与求和是线性的,但对于乘积,你必须执行乘积规则。它是线性复杂度与一些更高阶的多项式复杂度