机器算法验证 - 如何在知道样本均值和某个分位数的情况下拟合对数正态分布的参数？ - 吾爱随笔录

如何在知道样本均值和某个分位数的情况下拟合对数正态分布的参数？

机器算法验证意思是配件分位数对数正态分布

2022-03-21 09:15:21

目标是参数化对数正态分布，然后对于给定的百分位数应该具有给定的平均值和给定的值。

1个回答

令和为对应正态分布的参数（分别为均值和标准差）。给定对数正态平均值和百分位数的值，我们需要找到和。 $\mu$ $\sigma$ $m$ $z$ $\alpha$ $\mu$ $\sigma \gt 0$

为此，设为标准正态分布函数。两条信息是 $\Phi$

$m = \exp(\mu + \sigma^2/2)$ ，其中。 $\mu + \sigma^2/2 = \log(m)$
$\log(z) = \mu + \sigma \Phi^{-1}(\alpha).$

从第一个中减去第二个并乘以产生 $2$

σ^{2} - 2 Φ^{- 1} (α) σ + 2 (\log (z) - \log (m)) = 0.

$\sigma^2 - 2\Phi^{-1}(\alpha)\sigma + 2(\log(z) - \log(m)) = 0.$

中的二次方程，用通常的二次公式求解。将有零个、一个或两个解决方案。接近时，可能会出现两种解。 $\sigma$ $\alpha$ $1$

$\mu$ 然后通过使用任何一个原始方程，找到例如， $\sigma$

μ = \log (m) - σ^{2} / 2

$\mu = \log(m) - \sigma^2/2$

会做得很好。

（一种特殊情况是当时，对应于中位数，其中的公式简化为这是 @Glen_b 在Can I get the parameters of a lognormal distribution of a sample mean & median? 获得的解，它使用“ ”表示“ “。） $\alpha=1/2$ $\Phi^{-1}(\alpha) = 0$ $\sigma$

σ^{2} + 2 (\log (z) - \log (m)) = 0.

$\sigma^2 + 2(\log(z) - \log(m)) = 0.$

\tilde{m}

$\tilde{m}$

z

$z$

为了将这些估计值与数据拟合，请考虑测量拟合优度，以便在可用时区分两个解决方案。一个统计应该做的很好。此方法在以下代码中进行了说明，该代码模拟数据、执行分析、绘制数据直方图并绘制解决方案。当解决方案不合适时，它的情节就会淡出。这是一个例子。 $\chi^2$ R

#
# Given a mean `m` and `alpha` quantile `z, find the matching parameters of any 
# lognormal distributions.
#
f <- function(m, z, alpha) {
  B <- -2 * qnorm(alpha)
  C <- 2*(log(z) - log(m))
  sigma <- (-B + c(-1,1)*sqrt(B^2 - 4*C)) / 2
  sigma <- sigma[sigma > 0 & !is.na(sigma)]
  mu <- log(m) - sigma^2 / 2
  return(cbind(mu=mu, sigma=sigma))
}
#
# Compute a chi-squared statistic for data `x` corresponding to binning
# a lognormal distribution with parameter `theta` into `n` equal-size bins.
#
chi.squared <- function(theta, x, n=4) {
  cutpoints <- exp(qnorm(seq(0, 1, length.out=n+1), theta[1], theta[2]))
  counts <- table(cut(x, cutpoints))
  expected <- length(x) / n
  stat <- sum((counts - expected)^2 / expected)
}
#
# Simulate data, compute their statistics, and estimate matching lognormal
# distributions.
#
set.seed(17)
x <- exp(rnorm(20, sd=0.4))
m <- mean(x)
alpha <- 0.9
z <- quantile(x, alpha)
theta <- f(m, z, alpha)
stats <- apply(theta, 1, chi.squared, x=x)
#
# Plot the data and any matching lognormal density functions.
#
hist(x, freq=FALSE, breaks=12)
col <- "Red"
invisible(apply(theta, 1, function(q) {
  stat <- chi.squared(q, x, min(length(x), 5))
  curve(dnorm(log(x), q["mu"], q["sigma"])/x, add=TRUE, lwd=2,
        col=hsv(0, min(1, 2/sqrt(1 + 10*stat/length(x))), 0.9))
}))

其它你可能感兴趣的问题

上一篇负二项式 MGF 收敛到 Poisson MGF 下一篇“错误：未找到有效的系数集：请提供起始值”在尝试获取 R 中的置信区间时