、四分位数和均值构建(正态?)分布?nn

机器算法验证 分布 正态分布 估计 分位数
2022-04-04 01:22:20

我有一些由、四分位数(+ 附加分位数)和平均值描述的数据。是否可以根据这些统计数据重建或建模此分布?由于中位数和平均值不相同,至少存在一些偏差,但除此之外,我会假设数据是正常的。n

编辑:这被标记为重复,但在我搜索时发现的其他问题中,没有一个包含关于平均值的信息作为重新创建分布的数据点。由于那个额外的参数,我想知道它是否使估计成为可能。简而言之,从与该问题相关的其他答案中看不出平均值的影响。

3个回答

答案是否定的,无论如何也不完全是。

如果你有两个正常人口的四分位数,那么你可以找到例如,的上下分位数分别为μσ.Norm(μ=100,σ=10)93.255106.745,

 qnorm(c(.25, .75), 100, 10)
 [1]  93.2551 106.7449

那么 提供两个方程可以求解得到P(Xμσ<0.6745)=0.25P(Xμσ<0.6745)=0.75μσ.

qnorm(c(.25,.75))
[1] -0.6744898  0.6744898

但是,样本四分位数不是人口四分位数。任何正常样本中都没有足够的信息来精确地确定μσ.

而且您不确定您的样本是否来自正常人群。如果总体具有均值和中值则样本均值和中值分别是这两个参数的估计值。如果总体是对称的,那么但你说样本均值和中位数不一致。所以你不能确定人口是对称的,更不用说正常了。μη,μ=η,

基于@whuber关于“建模”的评论,我对相对基本的方法进行了一些思考,这些方法可用于在给定样本量、样本四分位数和样本均值的情况下估计正态分布的参数,假设数据是正态的。

其中大部分对于非常大的经过一些实验,我发现 35 左右的样本量刚好足够获得相当好的结果。所有计算均使用 R 完成;种子(基于当前日期)显示用于模拟。n.

假设样本:假设我们有一个样本(四舍五入到两个位置),已知它来自的正常群体 ,但未知的我们假设样本均值是样本中位数是下四分位数和上四分位数分别是(有时报告和文章不会提供完整的数据集,但会提供有关样本的此类摘要数据。)n=35,μσ.A=49.19,H=47.72,Q1=43.62,Q3=54.73,

估计总体均值。的最佳估计是样本均值μA=μ^=49.19.

估计总体标准差:如果我们知道,对总体标准差 (SD) 的良好估计将是样本 SD但没有给出该信息。标准正态总体的四分位距 (IQR) 为非常大的正态样本的 IQR 约为S, 1.35,1.35σ.

diff(qnorm(c(.25, .75)))
[1] 1.34898
set.seed(1018); IQR(rnorm(10^6))
[1] 1.351207

我们大小为的样本的 IQR为,大小为 35 的标准正态样本的预期 IQR 为 1.274。因此,我们可以使用样本 IQR 为我们的总体估计n=3554.7343.62=11.11σσˇ=11.11/1.274=8.72.

set.seed(910);  m = 10^6;  n = 25
iqr = replicate(m, IQR(rnorm(n)))
mean(iqr);  sd(iqr)
[1] 1.274278
[1] 0.3024651

评估结果:因此,我们可以推测我们的正态人口分布大致为 模拟了样本 。Norm(49.19,8.72).Norm(50,10).

set.seed(2018);  x = round(rnorm(35, 50, 10), 2);  summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  31.73   43.62   47.72   49.19   54.73   70.99

做两个比较似乎是值得的:(a) 给定信息与的 CDF 匹配程度如何,以及 (b) 这个估计分布的 CDF 与我们所知道的匹配程度如何是真正的正态分布。当然,在实际情况下,我们不知道真正的正态分布,所以第二次比较是不可能的。Norm(49.19,8.72),

下图中,蓝色曲线是估计的CDF;实心红色点表示样本值红色圆圈表示真实正态分布的 CDF 显示为虚线。用于估计正态参数的三个值Q1,H,Q3,A.Q1,Q3,A

curve(pnorm(x, 49.19, 8.27), 0, 80, lwd=2, ylab="CDF", 
    main="CDF of NORM(49.19, 8.27)", xaxs="i", col="blue")
  abline(h=0:1, col="green2")
  points(c(43.62, 47.72, 54.73), c(.25, .5, .75), pch=19, col="red")
  curve(pnorm(x, 50, 10), add=T, lty="dotted")
  points(49.19, .50, col="red")

在此处输入图像描述

关于对称性:后,对数据的正态性可能有多大的担忧。我们可以通过从的样本 来得到一个好主意。一个简单的模拟表明,在这样的正常样本中,大约 11% 的时间可能会出现较大的正差异。D=AH=49.1947.72=1.47.D=AHn=35Norm(μ=49.19,σ=8.27).

set.seed(918);  m = 10^6;  n = 25;  d = numeric(m)
for (i in 1:m) { 
   y = rnorm(n, 49.19, 8.27)
   d[i] = mean(y) - median(y) }
mean(d > 1.47)
[1] 0.113

因此,在我们的样本均值和中位数的比较中没有明显的偏度证据。当然,拉普拉斯和柯西分布族也是对称的,因此这很难“证明”样本来自正常总体。

可以根据这些信息估计参数,但是根据给定的信息构造一些(近似)似然函数并不容易。在某种程度上,这是对@BruceET 答案的跟进,试图在该答案中正式化想法。n,Q1,Q3,X¯n

使用顺序统计理论,我们可以构建基于的似然函数。如何也合并观察到的平均值似乎更困难。为了简化,我将假设并且的精确分析(如果可能的话)需要确切地知道四分位数是如何计算的(不同的方法可以对小给出完全不同的答案)。然后我们可以找到可能性 n,Q1,Q3n=4kX(k)Q1X(k+1)X(3k)Q3X(3k+1)nn

L(μ,σ)Φ(Q1μσ)k[Φ(Q3μσ)Φ(Q1μσ)]2k[1Φ(Q3μσ)]kϕ(Q1μσ)ϕ(Q3μσ)/σ2
其中分别是标准的普通pdf, cdf . 这现在可以用作任何其他似然函数。ϕ,Φ

但要将其扩展到也使用均值的可能性,我们需要的联合分布,并且可能必须以某种方式进行近似。这似乎是一个不错的小项目!Q1,Q3,X¯n

这里要研究的其他想法是 ABC(近似贝叶斯计算),它似乎非常适合基于(不足)汇总统计的估计。或者可能是模拟的最大似然。我会回到这里看看。