对箱须图中栅栏的位置感到困惑

机器算法验证 异常值 箱形图
2022-03-11 00:34:19

在一种类型的箱须图中,胡须末端的栅栏用于指示截止值,超过该值的任何点都将被视为异常值。

我为这些截止值找到的标准定义是

q1k×IQR
为下栅栏,
q3+k×IQR
为上栅栏,其中 q1q3 是第一个和第三四分位数,分别是 IQR:=q3q1 是四分位数范围,k 是某个常数 >0
(我最常看到的 k 的值是 1.5,而 3 是第二个。)

到现在为止还挺好。

问题是,根据这些定义,下栅栏和 q1 之间的距离总是与上栅栏和 q3 之间的距离相同,即 k×IQRIOW,上胡须的长度总是等于下胡须的长度 1

这与我在那里看到的绝大多数 BW 图不符。当然,对于其中一些图,胡须的末端应该代表最小值和最大值,因此上面的注释不适用于它们。但在许多其他情况下,栅栏旨在表示将点分类为异常值的标准,并且据说是基于上面所示的公式,但由此产生的胡须具有不同的长度。例如。)

我错过了什么?


1 “上/下晶须的长度”当然是指晶须与盒子相交的点与晶须的“自由”端点之间的距离。

4个回答

这是一个显示上下栅栏的图形表示。在实践中,不绘制栅栏。如其他答案中所述,如果观察值等于围栏值,则晶须只会延伸到围栏值,否则晶须会延伸到位于围栏内的最极端的观察值。

箱形图

晶须仅到达小于(大于)上(下)栅栏值的最大(最小)点。例如,如果 $q_3+k \times IQR=10$ 并且数据集的值是 $\lbrace\dots,5,6,7,8,12\rbrace$,那么胡须只能达到 8, 12 将是“异常值”。q3+k×IQR=10 and the data set had values {,5,6,7,8,12}, then the whisker would only goes as far as 8, and 12 would be the "outlier".

因此,简而言之,晶须的定义,$q_3 +k \times IQR$ 和 $q_1-k\times IQR$,仅代表晶须可以去的最大范围,如果在这些值上有数据点的话。因此,它们不必(并且很少)长度相同。q3+k×IQR and q1k×IQR, only represent the maximum extent to which the whiskers could go, if there were data points at those values. Thus they don't have to be (and rarely are) the same length.

你似乎混淆了胡须和栅栏。晶须代表数据点,栅栏不代表。由于数据点几乎可以位于任何地方(取决于它们遵循的分布......),结果不对称也就不足为奇了。在您链接的网页上,只有一个图显示了真正的异常值(大约在页面中间标有“异常值”的那个)。你可以从这张图片中推断出栅栏的位置,因为胡须在栅栏内结束,而点在外面。

我要直奔主题:假设您的数据是正偏态的(例如:一些卡方分布)左侧没有异常值,而另一侧可能很少。

此外,如果数据没有分布到 1.5*IQR,那么您的箱线图将在一端短于 1.5*IQR。

在这种情况下,两边都有 1.5*IQR 的箱线图会歪曲数据,因为范围会比实际更大(至少在较短的一侧)! 右偏分布的一个例子