有偏抽样的指数分布参数估计

机器算法验证 分布 估计 偏见 无偏估计器 指数分布
2022-03-24 13:55:22

我想计算参数λ指数分布的eλx在有偏的条件下从这个分布中抽取的样本总体。据我所知,对于 n 个值的样本,通常的估计量是λ^=nxi. 但是我的样本有如下偏见:

从从指数分布中抽取的 m 个元素的完整种群中,只有 n 个最小的元素是已知的。如何估计参数λ在这种情况下?

更正式一点,如果{x1,x2,x3,...,xm}是从 iid 样本中抽取的eλx, 这样对于每个i<j我们有xixj,那我怎么估计λ从集合{x1,x2,x3,...,xn}在哪里n<m.

非常感谢!

迈克尔

3个回答

II型删失下指数分布参数的最大似然估计可以如下推导。我假设样本量是m,其中n<m最小的被观察到并且mn最大的未被观察到(但已知存在。)

让我们假设(为了符号简单)观察到的xi被订购:0x1x2xn. 那么联合概率密度x1,,xn是:

f(x1,,xn)=m!λn(mn)!exp{λi=1nxi}exp{λ(mn)xn}

其中第一个指数与概率有关n观察到的xi第二个是概率mn未观察到xi大于xn(这只是 1 - CDF 在xn.) 重新排列术语会导致:

f(x1,,xn)=m!λn(mn)!exp{λ[i=1n1xi+(mn+1)xn]}

(注意总和运行到n1因为有一个“+1"在系数中xn.) 取对数,然后是 wrt 的导数λ依此类推导致最大似然估计:

λ^=n/[i=1n1xi+(mn+1)xn]

这将@jbowman 的回答链接到我的评论。也就是说,在常见的工作假设下,可以使用 II 型审查下的“标准生存可能性”。

> #------seed------
> set.seed(1907)
> #----------------
> 
> #------some data------
> t <- sort(rexp(n=20, rate=2))        #true sample
> t[16:20] <- t[15]                    #observed sample
> delta <- c(rep(1, 15), rep(0, 5))    #censoring indicator
> data <- data.frame(t, delta)         #observed data
> #---------------------
> 
> #-----using @jbowman's formula------
> 15 / (sum(t[1:14]) + (5 + 1)*t[15])
[1] 2.131323
> #-----------------------------------
> 
> #------using the usual survival likelihood------
> library(survival)
> fit <- survreg(Surv(t, delta)~1, dist="exponential", data=data)
> exp(-fit$coef)
(Intercept) 
   2.131323 
> #-----------------------------------------------

PS1:请注意,这不仅限于指数分布。

PS2:详情可以在Lawless 的书的2.2 节中找到。

假设n已知,估计可以通过

Φ(xk)=1eλxk(k/n) 在哪里xk,0<k<m, 指的是k'缩减数据集中的最小值。

逻辑是:如果你有整套n样本,您可以构建经验 CDF,Φ,来自这个样本。那么如果你拿了物品k这个排序的数组,它将对应于 CDF 值k/n. 在很多情况下,k=n/2是一个有用的选择。