我有一个数据集在分解后显示为盒须图。见下文。
我想知道为什么 Tableau(我正在使用的产品)会自动在盒须之外绘制一大堆值。我认为盒子的胡须是最小值和最大值。它说高于最大晶须的值是异常值,但我认为不需要显示它,其次不确定它使用什么逻辑来计算它。所以只是想知道是否有人知道为什么有人会想要查看一个盒须图,该图也显示了异常值,而不是它们包含在盒须中?(即这是常见的统计做法吗?)
我有一个数据集在分解后显示为盒须图。见下文。
我想知道为什么 Tableau(我正在使用的产品)会自动在盒须之外绘制一大堆值。我认为盒子的胡须是最小值和最大值。它说高于最大晶须的值是异常值,但我认为不需要显示它,其次不确定它使用什么逻辑来计算它。所以只是想知道是否有人知道为什么有人会想要查看一个盒须图,该图也显示了异常值,而不是它们包含在盒须中?(即这是常见的统计做法吗?)
盒须图的通常(和原始)定义确实包括异常值(实际上,Tukey 有两种异常点,这些天通常没有区分)。
具体来说,Tukey 箱线图中胡须的末端位于内栅栏内最近的观测值,通常在上铰链 + 1.5 H-展开和下铰链 - 1.5 H-展开(基本上,UQ + 1.5 IQR 和 LQ - 1.5 IQR)。超出范围的被标记为异常值。
这就是 R 所做的,例如:
箱线图有很多变化,有些包实现了 Tukey 箱线图以外的其他东西,但它是最常见的一种。事实上,Wickham 和 Stryjewski 的“箱线图 40 年”提到了许多变化(而这只是其中的一小部分)。
有关一些基本细节,请参阅 Wikipedia 关于箱线图的文章。
顺便说一句,Tableau 不仅显示异常值 - 它还显示那里的所有数据。你可以看到它在胡须末端之间的标记点,甚至是盒子内部的点,而不仅仅是内栅栏之外的点。
Tableau在这里描述了它的箱线图;如您所见,该描述与我对上面 Tukey 箱线图的描述大致匹配。
编辑:这只是为了在评论中提到的 Schmid 和 Crowe 参考资料中添加箱线图元素的样子,这样人们就不必追着他们去看正在讨论的内容:
(Crowe 版本在这里以几种方式进行了微调,其中一种使它看起来更像箱线图;我以后可能会做一个更忠实的版本)
Tableau 提供两个选项 - 通常称为 Tukey 箱线图和骨架箱线图的原理图箱线图。后者的胡须从最小值延伸到最大值。前晶须延伸到距铰链 1.5 IQR 以内的最近数据点。有一个选项可以切换是显示可视化中的所有点还是仅显示异常值。