一个不可能的估计问题?

机器算法验证 估计 最大似然 负二项分布
2022-02-09 22:09:14

问题

负二项式 (NB) 分布的方差始终大于其均值。当样本的均值大于其方差时,尝试以最大似然或矩估计拟合 NB 的参数将失败(没有有限参数的解)。

但是,从 NB 分布中提取的样本可能具有大于方差的均值。这是 R 中一个可重现的示例。

set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576

NB 将产生一个无法估计参数的样本的概率非零(通过最大似然法和矩量法)。

  1. 可以对这个样本给出适当的估计吗?
  2. 当没有为所有样本定义估计量时,估计理论会说什么?

关于答案

@MarkRobinson 和 @Yves 的回答让我意识到参数化是主要问题。NB的概率密度通常写为

P(X=k)=Γ(r+k)Γ(r)k!(1p)rpk
或作为
P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.

在第一次参数化下,最大似然估计是(,0)每当样本的方差小于均值时,就没有什么有用的了p. 在第二种情况下,它是(,x¯), 所以我们可以给出一个合理的估计m. 最后,@MarkRobinson 表明我们可以通过使用解决无限值的问题r1+r代替r.

总之,这个估计问题没有根本性的错误,只是你不能总是给出有意义的解释rp对于每个样本。公平地说,这些想法都存在于两个答案中。我选择了@MarkRobinson 作为他给出的补充的正确选择。

2个回答

在此处输入图像描述基本上,对于您的样本,大小参数的估计值位于参数空间的边界上。也可以考虑重新参数化,例如 d = size / (size+1); 当 size=0, d=0 时,当 size 趋于无穷大时,d 接近 1。事实证明,对于您给出的参数设置,无穷大的大小估计(d 接近 1)大约有 13% 的时间发生Cox-Reid 调整轮廓似然 (APL) 估计,这是 NB 的 MLE 估计的替代方案(此处显示的示例)平均参数(或“概率”)的估计值似乎没问题(见图,蓝线是真实值,红点是种子 = 167 样本的估计值)。关于 APL 理论的更多细节在这里

所以,我会说 1.:体面的参数估计可以有.. size=infinity 或dispersion=0 是给定样本的合理估计。考虑一个不同的参数空间,估计是有限的。

在负二项式 (NB) 示例中,似然可能在无限距离处达到最大值p0r, 在域的边界上Θ:=(0,1)×(0,). 如果事实证明泊松分布领先于某个均值λ>0 到一个大于 NB 的可能性,那么可能性会增加[p,r]Θ沿着一条路径移动p0, rrp/(1p)λ. 在边界上找到最大似然的概率不为零。

Lomax 分布的类似问题但诊断更简单 :众所周知,当样本具有变异系数时,形状的 ML 估计是无限的CV<1. 然而,该事件的概率对于任何样本量都是正的,例如>0.3为了α=20n=200.

ML 属性适用于大样本量:在规律性条件下,ML 估计被证明是存在的,是唯一的并且倾向于真实参数。然而,对于给定的有限样本大小,ML 估计可能无法存在于域中,例如因为在边界上达到最大值。它也可以存在于大于用于最大化的域中。

在 Lomax 示例中,有些人会选择使用指数分布,这是αλ/αθ>0. 这归结为接受无限的 ML 估计。由于 Lomax 是两参数广义帕累托分布的特殊重新参数化GPD(σ,ξ) 有形状ξ>0,我们也可以拟合一个 GPD,然后找到ξ^<0而不是指数 ξ^=0. 对于 NB 示例,我们可以选择拟合泊松分布,从而接受 NB 参数的边界值。

为了通过重新参数化保持不变性,我相信在某些情况下无限参数是有意义的。