如何阅读 R 中的箱线图?
文档对我来说似乎相当清楚,尽管熟悉如何阅读R文档和更一般地使用箱线图肯定会有所帮助。在页面底部它说:
也可以看看
boxplot.stats进行计算...
所以我们可以在那里导航。上面写着:
细节
两个“铰链”是第一个和第三个四分位数的版本,即接近. 对于奇数n(其中),铰链等于四分位数,而对于偶数n则不同。虽然四分位数仅等于 的观测值,但铰链对于的观测值也是如此,否则位于两个观测值的中间。
quantile(x, c(1,3)/4)n <- length(x)n %% 4 == 1 (n = 1 mod 4)n %% 4 == 2 (n = 2 mod 4)
该Values部分包括:
stats长度为 5 的向量,包含下须的极值、下“铰链”、中值、上“铰链”和上须的极值。
此外,在上面我们看到该参数默认coef设置为(所以除非您在原始调用中1.5更改了默认值,否则这就是您将得到的)。该论点记录在案:rangeboxplotcoef
coef这决定了情节“胡须”从盒子伸出多远。如果coef为正,则晶须延伸到最极端的数据点,该数据点不超过coef距离盒子长度的两倍。零值会导致胡须延伸到数据极值(并且不会返回异常值)。
从这些中,我们了解到中线是数据的中位数,盒子的上限和下限分别是第三个和第一个四分位数1(第 75 个和第 25 个百分位数)。默认情况下,从框的顶部(底部)到该距离内的最远基准点,晶须最多可延伸到四分位距的 1.5 倍。如果有任何数据超出该距离,它们将单独表示为点(“异常值”)。
明确地说,它们没有显示标准偏差。
1. 请注意,确定分位数的值(例如,第 25 个百分位数可能比人们意识到的要复杂。至少已经讨论了九种不同的方法。对于一个很好的概述,请参阅@Glen_b 的出色答案:Relation between五分位数和算术平均值。
