箱线图中变异的定义是什么?

机器算法验证 方差 描述性统计 探索性数据分析 箱形图
2022-03-30 00:19:16

变化是我一直混淆的一个术语。我第一次听到它时,它被定义为“分布中最大值和最小值之间的差异”。最近,我听说变异实际上是第一四分位数和第三四分位数之间的差异,或者是每个数字偏差平方的平均值。

我试图做的问题给了我们一组箱线图,并要求我们找出变化最大的一天。

在此处输入图像描述

如果第一个定义是正确的,那么星期五将是明显的赢家(因为几乎没有睡眠的异常值)。如果第二个定义是正确的,那么星期六将是赢家。

我不确定我是否犯了错误或混淆了不同的术语,所以有人可以指出我正确的方向吗?

1个回答

箱线图邀请您通过比较图中显示的数量来以多种不同方式表征变化:极值、须线极值、四分位数和中位数。这给出了 21 种不同的变化量度!在此基础上,我可以确定(有一些困难,因为许多箱线图彼此相似)三个可能的正确答案(周六、周日和周一)。

为了说明,以下是与您类似的示例数据:

数字

每个箱线图至少描绘了七个数量,如星期四箱线图中所标记(尽管有些可能重合):eXtremes、Fences(胡须的尖端)、Hinges(箱的边界)和中位数。前三个出现在中位数下方(“-”下标)和上方(“+”下标),总共有 7 个统计量。

任何两个不同统计数据之间的绝对差异衡量了基础数据中“分散”或“变化”的某些方面。

例如,范围,四分位数范围,等等。除了范围之外,每个这样的差异都集中在数据分布的一部分上。 这为您提供了一个灵活的工具来选择您希望表征的数据集的哪个方面。X+X H+H

以下是样本数据的这 21 个统计数据中的每一个的图表。

图 2

在每个图中,我突出显示了七个值中的最大值。突出显示颜色由星期几决定。很明显,在某种特定意义上,七个工作日中有五个可以被认为具有最大的变化。(只有周二和周五不显示。)例如,第 1 行第 6 列中的“X-,X+”图表绘制了范围,并表示周四的范围是最大的。


那么,要回答你的问题,你必须

  1. 选择一些变化量度。

  2. 通过系统地比较每个箱线图中的相应部分以估计它们的垂直距离,在图形中对其进行评估。

  3. 选择这些距离最大的一天(或几天)。

例如,在我看来,最大的变化(从上尖端到中线的距离)测量数据中高于平均值的分布,发生在周日的数据中,因为那么有一个异常的极值。MX+

通常,使用由箱高测量的 IQR 作为箱线图中变化的默认度量。这是因为它相对不受极端值的影响,使其成为一个稳健的变化指标,并且在不强调高值或低值方面是对称的。所以,如果你在问题、教科书或课堂笔记中没有得到进一步的指导,这将是选择的衡量标准。H+H