箱线图中缺少四分位数

机器算法验证 描述性统计 箱形图
2022-03-18 20:07:51

目前我正在创建一个箱形图。我是统计领域的新手,尤其是箱形图。找到以下图片:在此处输入图像描述

在 y 轴上找到消息的数量。我无法理解我在那里看到的内容。绘图由 Matlab 自动创建。据我所知,箱线图中应该有四个四分位数。我看只有三个。这可能是因为中位数的值(它是绿线)而发生的。但如果缺少四分位数,我不知道这意味着什么。附近有人可以解释一下并告诉我一些细节,你可以从情节中读出什么吗?

2个回答

中位数可能与第一个四分位数相同,这就是它们重叠的原因。当数据集中有大量相同的低值时,往往会发生这种情况。这是一个重现此模式的示例:

dat <- c(1,2,2,2,3,5,6)

median(dat)
## 2
quantile(dat, 0.25)
## 25% 
##  2 

boxplot(dat)

在此处输入图像描述您可以在此处 阅读有关如何解释箱线图的基本介绍尽管正如尼克考克斯在下面指出的那样,它对所谓的“异常值”的讨论是有缺陷的,应该被忽略。不应删除异常值,除非有非常充分的理由,例如明显的数据记录错误。

另请注意,箱线图不是显示许多数据集的好方法。我同意 Stephan Kolassa 对小型数据集的蜂群图和较大数据集的小提琴图/内核密度图的建议。

箱线图中的“箱”第一个四分位数延伸到第三个四分位数,即从第 25 个百分位数到第 75 个百分位数。从视觉上看,这意味着您的第 25 个百分位大约是 6 条消息,而您的第 75 个百分位大约是 8 条消息。

此外,箱线图使用水平线表示中位数(即第二个四分位数或第 50 个百分位数)。

当然,中位数可以与四分位数一致。因此,好的实现对中线使用不同的颜色或线型。在本例中,我们看到底部水平线是绿色的。它显然绘制第一个四分位线上。因此,这不仅是第一个四分位数,而且同时是中位数。因此,您的中位数也约为 6。

您应该能够通过计算四分位数和中位数从数据中验证这一点。