箱线图中缺少四分位数
机器算法验证
描述性统计
箱形图
2022-03-18 20:07:51
2个回答
中位数可能与第一个四分位数相同,这就是它们重叠的原因。当数据集中有大量相同的低值时,往往会发生这种情况。这是一个重现此模式的示例:
dat <- c(1,2,2,2,3,5,6)
median(dat)
## 2
quantile(dat, 0.25)
## 25%
## 2
boxplot(dat)
您可以在此处
阅读有关如何解释箱线图的基本介绍。尽管正如尼克考克斯在下面指出的那样,它对所谓的“异常值”的讨论是有缺陷的,应该被忽略。不应删除异常值,除非有非常充分的理由,例如明显的数据记录错误。
另请注意,箱线图不是显示许多数据集的好方法。我同意 Stephan Kolassa 对小型数据集的蜂群图和较大数据集的小提琴图/内核密度图的建议。
箱线图中的“箱”从第一个四分位数延伸到第三个四分位数,即从第 25 个百分位数到第 75 个百分位数。从视觉上看,这意味着您的第 25 个百分位大约是 6 条消息,而您的第 75 个百分位大约是 8 条消息。
此外,箱线图使用水平线表示中位数(即第二个四分位数或第 50 个百分位数)。
当然,中位数可以与四分位数一致。因此,好的实现对中线使用不同的颜色或线型。在本例中,我们看到底部水平线是绿色的。它显然绘制在第一个四分位线上。因此,这不仅是第一个四分位数,而且同时是中位数。因此,您的中位数也约为 6。
您应该能够通过计算四分位数和中位数从数据中验证这一点。
其它你可能感兴趣的问题