机器算法验证 - 具有相同 5 位数摘要的两个分布是否总是具有相同的形状？ - 吾爱随笔录

具有相同 5 位数摘要的两个分布是否总是具有相同的形状？

机器算法验证分布描述性统计

2022-03-06 05:33:35

我知道如果我可以有两个具有相同均值和方差的分布是不同的形状，因为我可以有一个 N(x,s) 和一个 U(x,s)

但是如果它们的最小值、Q1、中值、Q3 和最大值相同呢？

那么分布看起来会有所不同，还是需要它们具有相同的形状？

我唯一的逻辑是，如果它们具有完全相同的 5 位数摘要，它们必须采用完全相同的分布形状。

3个回答

仅仅因为五数汇总相同并不意味着分布相同。这告诉您当我们在箱形图中以图形方式呈现数据时丢失了多少信息！

看问题的最简单的方法可能是，五个数字的总结并没有告诉你最小值和下四分位数之间的分布，或者下四分位数和中位数之间的分布，等等。您知道最小和下四分位数之间的频率必须与下四分位数和中位数之间的频率匹配（有明显的例外，例如，如果我们的数据位于一个四分位数上，或者更糟糕的是，如果两个四分位数并列）但不知道这些频率分配给变量的哪些值。我们可以有这样的情况：

具有相同五数汇总和箱线图的不同分布

这两个分布具有相同的五数汇总，因此它们的箱线图相同，但我选择了 $X$ 在每个四分位数之间具有均匀分布，而 $Y$ 具有接近四分位数的低频分布和两个四分位数中间的高频分布。有效分配 $Y$ 已通过采取分布形成 $X$ 并将大部分接近四分位数的数据移到离它更远的地方；我的R代码实际上是反向执行的，从不规则分布开始 $Y$ 并通过重新分配峰值中的数据以填充低谷来平衡频率。

编辑：正如@Glen_b 所说，当您查看累积分布时，这变得更加明显。我添加了网格线来显示四分位数的位置，这对于两个分布是相同的，因此它们的经验 CDF 相交。

具有相同五数摘要的两个分布的经验 CDF

R代码

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00

通过考虑（累积）分布函数可以最清楚地回答这个问题。

指定最小值、最大值和三个四分位数正好指定 cdf 上的 5 个点，但这些点之间的 cdf 可能是仍然通过这些点的任何单调非递减函数：

在此处输入图像描述