我知道如果我可以有两个具有相同均值和方差的分布是不同的形状,因为我可以有一个 N(x,s) 和一个 U(x,s)
但是如果它们的最小值、Q1、中值、Q3 和最大值相同呢?
那么分布看起来会有所不同,还是需要它们具有相同的形状?
我唯一的逻辑是,如果它们具有完全相同的 5 位数摘要,它们必须采用完全相同的分布形状。
我知道如果我可以有两个具有相同均值和方差的分布是不同的形状,因为我可以有一个 N(x,s) 和一个 U(x,s)
但是如果它们的最小值、Q1、中值、Q3 和最大值相同呢?
那么分布看起来会有所不同,还是需要它们具有相同的形状?
我唯一的逻辑是,如果它们具有完全相同的 5 位数摘要,它们必须采用完全相同的分布形状。
仅仅因为五数汇总相同并不意味着分布相同。这告诉您当我们在箱形图中以图形方式呈现数据时丢失了多少信息!
看问题的最简单的方法可能是,五个数字的总结并没有告诉你最小值和下四分位数之间的分布,或者下四分位数和中位数之间的分布,等等。您知道最小和下四分位数之间的频率必须与下四分位数和中位数之间的频率匹配(有明显的例外,例如,如果我们的数据位于一个四分位数上,或者更糟糕的是,如果两个四分位数并列)但不知道这些频率分配给变量的哪些值。我们可以有这样的情况:
这两个分布具有相同的五数汇总,因此它们的箱线图相同,但我选择了在每个四分位数之间具有均匀分布,而具有接近四分位数的低频分布和两个四分位数中间的高频分布。有效分配已通过采取分布形成并将大部分接近四分位数的数据移到离它更远的地方;我的R
代码实际上是反向执行的,从不规则分布开始并通过重新分配峰值中的数据以填充低谷来平衡频率。
编辑:正如@Glen_b 所说,当您查看累积分布时,这变得更加明显。我添加了网格线来显示四分位数的位置,这对于两个分布是相同的,因此它们的经验 CDF 相交。
R代码
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
通过考虑(累积)分布函数可以最清楚地回答这个问题。
指定最小值、最大值和三个四分位数正好指定 cdf 上的 5 个点,但这些点之间的 cdf 可能是仍然通过这些点的任何单调非递减函数:
在图中,红色和黑色 CDF 共享相同的最小值、最大值和四分位数,但分布明显不同。显然,可以指定任何数量的其他 CDF,它们也通过相同的五个点。
事实上,我们所做的只是将分布函数限制在四个框内:
(只要它还继续满足 CDF 的其他条件)。这并不是什么限制。
相同的概念可以应用于样本数量——两个不同的经验 CDF 可能仍然具有相同的五数汇总。
关于该主题,请参阅此答案末尾附近的四个示例,它们都具有相同的五个数字摘要,但具有非常不同的直方图(我将在下面重现):
这再次强调了五个数字摘要通常不能很好地告诉我们有关形状的信息。
不,绝对不是这样。作为一个简单的反例,比较上的连续均匀分布离散均匀分布.
一个相关的例子是著名的 Anscombe 的四重奏,其中有 4 个数据集具有 6 个相同的样本属性(尽管与您提到的不同)看起来完全不同。见: http ://en.wikipedia.org/wiki/Anscombe%27s_quartet