机器算法验证 - 中值无偏估计量是否最小化平均绝对偏差？ - 吾爱随笔录

这是一个后续问题，但也是我之前的一个不同的问题。

我在 Wikipedia 上读到“中值无偏估计器将绝对偏差损失函数的风险降至最低，正如 Laplace 所观察到的那样。” 然而，我的蒙特卡洛模拟结果并不支持这个论点。

我假设来自对数正态总体的样本， $X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)$ ，在哪里， $\mu$ 和 $\sigma$ 是对数均值和对数标准差， $\beta = \exp(\mu)=50$

几何平均估计量是总体中位数的中位数无偏估计量 $\exp(\mu)$ ,

$\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)$ 在哪里， $\mu$ 和 $\sigma$ 是对数均值和对数标准差， $\hat\mu$ 和 $\hat\sigma$ 是 MLE $\mu$ 和 $\sigma$ .

而校正的几何平均估计量是人口中位数的平均无偏估计量。

$\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N)$

我从 LN 反复生成大小为 5 的样本 $(\log(50),\sqrt{\log(1+2^2)})$ . 复制数为 10,000。我得到的平均绝对偏差是几何平均估计的 25.14 和校正几何平均的 22.92。为什么？

顺便说一句，几何平均值的估计中值绝对偏差为 18.18，校正几何平均值估计量的绝对偏差为 18.58。

我使用的 R 脚本在这里：

#```{r stackexchange}
#' Calculate the geomean to estimate the lognormal median.
#'
#' This function Calculate the geomean to estimate the lognormal
#' median.
#'
#' @param x a vector.
require(plyr)
GM <- function(x){
    exp(mean(log(x)))
}
#' Calculate the bias corrected geomean to estimate the lognormal
#' median.
#'
#' This function Calculate the bias corrected geomean using the
#' variance of the log of the samples, i.e., $\hat\sigma^2=1/(n-1)
# \Sigma_i(\Log(X_i)-\hat\mu)^2$
#'
#' @param x a vector.
BCGM <- function(x){
y <- log(x)
exp(mean(y)-var(y)/(2*length(y)))
}
#' Calculate the bias corrected geomean to estimate the lognormal
#' median.
#'
#' This function Calculate the bias corrected geomean using
#' $\hat\sigma^2=1/(n)\Sigma_i(\Log(X_i)-\hat\mu)^2$
#'
#' @param x a vector.
CG <- function(x){
y <- log(x)
exp(mean(y)-var(y)/(2*length(y))*(length(y)-1)/length(y))
}

############################

simln <- function(n,mu,sigma,CI=FALSE)
{
    X <- rlnorm(n,mu,sigma)
    Y <- 1/X
    gm <- GM(X)
    cg <- CG(X)
    ##gmk <- log(2)/GM(log(2)*Y) #the same as GM(X)
    ##cgk <- log(2)/CG(log(2)*Y)
    cgk <- 1/CG(Y)
    sm <- median(X)
    if(CI==TRUE) ci <- calCI(X)
    ##bcgm <- BCGM(X)
    ##return(c(gm,cg,bcgm))
    if(CI==FALSE) return(c(GM=gm,CG=cg,CGK=cgk,SM=sm)) else return(c(GM=gm,CG=cg,CGK=cgk,CI=ci[3],SM=sm))
}
cv <-2
mcN <-10000
res <- sapply(1:mcN,function(i){simln(n=5,mu=log(50),sigma=sqrt(log(1+cv^2)), CI=FALSE)})
sumres.mad <- apply(res,1,function(x) mean(abs(x-50)))
sumres.medad <- apply(res,1,function(x) median(abs(x-50)))
sumres.mse <- apply(res,1,function(x) mean((x-50)^2))
#```

#```{r eval=FALSE}
#> sumres.mad
      GM       CG      CGK       SM 
#25.14202 22.91564 29.65724 31.49275 
#> sumres.mse
      GM       CG      CGK       SM 
#1368.209 1031.478 2051.540 2407.218 
#```