这实际上只是对数似然的便利,仅此而已。
我的意思是求和与乘积的便利性:,求和在许多方面更容易处理,例如微分或积分。我想说,这不仅仅是指数家庭的便利。ln(∏ixi)=∑ilnxi
当您处理随机样本时,可能性的形式为:,因此对数似然会将这个乘积分解为总和,这更容易操作和分析。我们只关心最大值的点,最大值并不重要,因为我们可以应用任何单调变换,例如对数。L=∏ipi
关于曲率直觉。它最终与对数似然的二阶导数基本相同。
更新:这就是我在曲率上的意思。如果你有一个函数,那么它的曲率将是(参见Wolfram 上
的(14)y=f(x)
κ=f′′(x)(1+f′(x)2)3/2
对数似然的二阶导数:
A=(lnf(x))′′=f′′(x)f(x)−(f′(x)f(x))2
在最大值点,一阶导数显然为零,所以我们得到:
\
kappa_似然性和对数似然性的二阶导数是一回事。
κmax=f′′(xmax)=Af(xmax)
另一方面,如果似然的一阶导数不仅在最大值点附近而且在最大值点附近都很小,即似然函数是平坦的,那么我们得到:
现在平面似然对我们来说不是一件好事,因为它使得在数值上找到最大值变得更加困难,并且最大似然并不比它周围的其他点好,即参数估计误差很高。
κ≈f′′(x)≈Af(x)
同样,我们仍然有曲率和二阶导数关系。那么,Fisher 为什么不看似然函数的曲率呢?我认为这也是出于方便的原因。由于总和而不是乘积,更容易操纵对数似然。因此,他可以通过分析对数似然的二阶导数来研究似然曲率。虽然方程对于曲率看起来非常简单,但实际上您正在对乘积进行二阶导数,这比二阶导数的总和更复杂。κmax=f′′(xmax)
更新 2:
这是一个演示。我画了一个(完全组成的)似然函数,它的 a)曲率和 b)它的对数的二阶导数。在左侧,您会看到狭窄的可能性,而在右侧,您会看到广泛的可能性。您会看到 a) 和 b) 在最大似然点处是如何收敛的,因为它们应该如此。更重要的是,您可以通过检查似然函数的二阶导数来研究似然函数的宽度(或平坦度)。正如我之前所写,后者在技术上比前者更易于分析。
毫不奇怪,对数似然的更深的二阶导数信号在其最大值附近更平坦的似然函数,这是不希望的,因为它会导致更大的参数估计误差。
MATLAB 代码,如果您想重现绘图:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
更新 3:
在上面的代码中,我将一些任意钟形函数插入曲率方程,然后计算其对数的二阶导数。我没有重新缩放任何东西,这些值直接来自方程式,以显示我之前提到的等价性。
这是 Fisher 在大学期间发表的第一篇关于可能性的论文,“On an Absolute Criterion for Fitting Frequency Curves”,数学信使,41: 155-160 (1912)
正如我一直坚持的那样,他没有提到对数概率与熵和其他奇特主题的任何“更深”的联系,他也没有提供他的信息标准。他只是将方程放在第 54 页上,然后继续讨论最大化概率。在我看来,这表明他使用对数只是作为分析联合概率本身的一种方便方法。它在连续曲线拟合中特别有用,为此他在 p.55 上给出了一个明显的公式:
祝你好运分析这种可能性(或概率根据费舍尔)没有日志!logP′=∑n1logp
logP=∫∞−∞logfdx
P
在阅读这篇论文时需要注意的一点是,他只是从最大似然估计工作开始,并在随后的 10 年中做了更多工作,所以据我所知,即使是 MLE 这个词也没有被创造出来。