如何阅读 R 中的箱线图?

机器算法验证 r 数据可视化 箱形图
2022-04-03 03:56:01

我阅读了boxplot docs,但没有找到答案。

使用默认设置 ( boxplot(x.ts)) 时,胡须、方框、中线和异常值代表什么?它是否显示四分位数或标准差?

这是在哪里记录的?

2个回答

文档对我来说似乎相当清楚,尽管熟悉如何阅读R文档和更一般地使用箱线图肯定会有所帮助。在页面底部它说:

也可以看看

boxplot.stats进行计算...

所以我们可以在那里导航。上面写着:

细节

两个“铰链”是第一个和第三个四分位数的版本,即接近. 对于奇数n(其中),铰链等于四分位数,而对于偶数n则不同。虽然四分位数仅等于 的观测值,但铰链对于的观测值也是如此,否则位于两个观测值的中间。quantile(x, c(1,3)/4)n <- length(x)n %% 4 == 1 (n = 1 mod 4)n %% 4 == 2 (n = 2 mod 4)

Values部分包括:

stats 长度为 5 的向量,包含下须的极值、下“铰链”、中值、上“铰链”和上须的极值。

此外,在上面我们看到该参数默认coef设置为(所以除非您在原始调用中1.5更改了默认值,否则这就是您将得到的)。论点记录在案:rangeboxplotcoef

coef 这决定了情节“胡须”从盒子伸出多远。如果coef为正,则晶须延伸到最极端的数据点,该数据点不超过coef距离盒子长度的两倍。零值会导致胡须延伸到数据极值(并且不会返回异常值)。

从这些中,我们了解到中线是数据的中位数,盒子的上限和下限分别是第三个和第一个四分位数1(第 75 个和第 25 个百分位数)。默认情况下,从框的顶部(底部)到该距离内的最远基准点,晶须最多可延伸到四分位距的 1.5 倍。如果有任何数据超出该距离,它们将单独表示为点(“异常值”)。

明确地说,它们没有显示标准偏差。

1. 请注意,确定分位数的值(例如,第 25 个百分位数可能比人们意识到的要复杂。至少已经讨论了九种不同的方法。对于一个很好的概述,请参阅@Glen_b 的出色答案:Relation between五分位数和算术平均值

在此处输入图像描述

这总结了箱线图和每条线代表的内容。

资料来源: http ://www.physics.csbsju.edu/stats/box2.html