了解箱线图的胡须

机器算法验证 数据可视化 箱形图
2022-03-23 14:33:30

我有一个关于箱线图胡须的解释的问题。我读过以下内容:“在矩形的顶部和底部,‘晶须’显示的范围是 0.25 和 0.75 分位数之间距离的 1.5 倍”,但不完全理解“距离”是什么意思.

这不可能是指概率质量,因为在 0.25 和 0.75 分位数之间,我们显然总是拥有相同百分比的数据。那么这个想法是什么?

2个回答

对应于第 75 个分位数的 X 值减去对应于第 25 个分位数的 X 值就是距离。例如,对于 SAT 数学考试,620 是第 75 个分位数,520 是第 25 个分位数。因此,如果你的分数高于 620,那么你的成绩就比 75% 的应试者要好。晶须的长度可达1.5*(620-520) 点。

箱线图旨在以清晰显示的方式总结相对较小的数据集

  • 一个中心值。

  • “典型”值的传播。

  • 相对于价差而言,与中心价值相差甚远的个别价值,以致它们被挑出来以引起特别注意并单独识别(例如,按名称)。这些被称为“识别值”。

这将以一种稳健的方式完成:这意味着当一个或相对较小的一部分数据值被任意更改时,箱线图不应看起来有明显不同。

其发明者John Tukey采用的解决方案是以系统的方式使用顺序统计数据——从最低到最高排序的数据。为简单起见(他在脑海中或用铅笔和纸进行计算)Tukey 专注于中位数:一批数字的中间值。(对于具有偶数计数的批次,Tukey 使用两个中间值的中点。)中位数可以抵抗多达一半的数据的变化,使其成为一个非常好的统计数据。因此:

  • 中心值是用所有数据的中位数估计的

  • 使用“上半部分”(所有数据等于或高于中值)和“下半部分”(所有数据等于或小于中值)的中值之间的差异来估计分布。这两个中位数被称为上和下“铰链”或“四分之二”。如今,它们往往被称为四分位数的东西所取代(唉,它没有普遍的定义)。

  • 用于筛选异常值的隐形栅栏竖立了 1.5 倍和 3 倍于铰链之外的传播(远离中心值)。

    • “最接近但仍在内部的内栅栏的每一端的值是‘相邻的’。”
    • 超出第一道栅栏的值称为“异常值”。
    • 超出第二道栅栏的值“很远”。

(那些年纪大到能记住60 年代嬉皮士语的人会明白这个笑话。)

由于价差是数据值的差异,因此这些围栏具有与原始数据相同的度量单位:这就是问题中“距离”的含义。

关于要识别的数据值,Tukey 写道

我们至少可以识别出极值,并且最好识别出更多。

任何显示中位数、铰链和已识别值的图形方法都值得称为“箱线图”(最初是“箱线图”)。 通常不描绘栅栏。 Tukey 的设计由一个描述铰链的矩形组成,中间有一个“腰部”。不显眼的线状“晶须”从铰链向外延伸到最里面的识别值(盒子上方和下方)。通常这些最里面的标识值是上面定义的相邻值。

因此,箱线图的默认外观是将胡须扩展到最极端的异常数据值,并识别(通过文本标签)包含胡须末端和所有异常值的数据。例如,Tupungatito 火山是图中右侧所示火山高度数据的高相邻值:晶须停在那里。Tupungatito 和所有更高的火山都被单独识别。

为了忠实地显示数据,图形中的距离与数据值的差异成正比。 (任何背离直接比例的行为都会在 Tufte(1983)的术语中引入“谎言因素”。)

图来自 EDA

Tukey 的书EDA(第 41 页)中的这两个箱线图说明了这些组件。值得注意的是,他在左侧的州数据集的高端和低端确定了非异常值,在右侧确定了火山高度的一个低非异常值。这体现了贯穿本书的规则判断的相互作用。

(您可以判断这些已识别的数据是非异常数据,因为您可以估计围栏的位置。例如,州高度的铰链在 11,000 和 1,000 附近,分布在 10,000 左右。乘以 1.5 和 3 得出距离15,000 和 30,000。因此,不可见的上栅栏必须在 11,000 + 15,000 = 26,000 附近,而在 1,000 - 15,000 的下栅栏将低于零。远栅栏将接近 11,000 + 30,000 = 41,000 和 1,000 - 30,000= -29,000。)


参考

塔夫特,爱德华。 定量信息的视觉展示。 柴郡出版社,1983 年。

图基,约翰。第 2 章,EDA 艾迪生-卫斯理,1977 年。