如何通过查看根据这些数据构建的箱线图来确定偏度:
340、300、520、340、320、290、260、330
一本书说,“如果下四分位数比上四分位数离中位数更远,那么分布是负偏态的。” 其他几位消息人士或多或少地表示相同。
我使用 R 构建了一个箱线图。如下所示:
我认为它是负偏态的,因为下四分位数比上四分位数离中位数更远。但问题是当我使用另一种方法来确定偏度时:
平均值 (337.5) > 中位数 (325)
这表明数据正偏斜。我错过了什么?
如何通过查看根据这些数据构建的箱线图来确定偏度:
340、300、520、340、320、290、260、330
一本书说,“如果下四分位数比上四分位数离中位数更远,那么分布是负偏态的。” 其他几位消息人士或多或少地表示相同。
我使用 R 构建了一个箱线图。如下所示:
我认为它是负偏态的,因为下四分位数比上四分位数离中位数更远。但问题是当我使用另一种方法来确定偏度时:
平均值 (337.5) > 中位数 (325)
这表明数据正偏斜。我错过了什么?
一种偏度度量是基于均值-中值-皮尔逊第二偏度系数。
偏度的另一种测量方法是基于相对四分位数差异 (Q3-Q2) 与 (Q2-Q1) 的比率,表示为比率
当 (Q3-Q2) 与 (Q2-Q1) 表示为差异(或等效地中间铰链中位数)时,必须对其进行缩放以使其无量纲(通常需要偏度测量),例如 IQR,如在这里(通过放置)。
最常见的度量当然是第三矩偏度。
没有理由认为这三项措施必然是一致的。其中任何一个都可能与其他两个不同。
我们认为的“偏度”是一个有点模糊和定义不明确的概念。有关更多讨论,请参见此处。
如果我们用普通的 qqplot 看你的数据:
[那里标记的线仅基于前 6 个点,因为我想讨论后两个与那里的模式的偏差。]
我们看到最小的 6 个点几乎完全在线上。
然后第 7 个点位于该线下方(比左端相应的第二个点更靠近中间),而第 8 个点位于该线上方。
第 7 点表明轻微的左偏,最后一个,更强烈的右偏。如果忽略任何一点,偏斜的印象完全由另一点决定。
如果我不得不说是其中一个,我会称之为“右偏”,但我还要指出,这种印象完全是由于那个非常大的一点的影响。没有它,真的没有什么可以说它是正确的偏斜。(另一方面,如果没有第 7 点,它显然不是左偏。)
当我们的印象完全由单点决定时,我们必须非常小心,并且可以通过删除一个点来翻转。这不是继续下去的依据!
我首先假设使异常值“异常”的是模型(在一个模型上的异常值在另一种模型下可能非常典型)。
我认为在正态分布(高于平均值 3.72 sds)的 0.01 上百分位(1/10000)处的观察对于正态模型同样是异常值,因为在指数分布的 0.01 上百分位处的观察对于指数模型来说同样是异常值。(如果我们通过它自己的概率积分变换来变换一个分布,每个分布都会去相同的统一)
要查看将箱线图规则应用于中等偏右分布的问题,请模拟指数分布的大样本。
例如,如果我们从法线模拟大小为 100 的样本,我们平均每个样本的异常值少于 1 个。如果我们用指数来做,我们平均在 5 左右。但是没有真正的基础可以说更高比例的指数值是“异常的”,除非我们通过与(比如说)正常模型进行比较来做到这一点。在特定情况下,我们可能有特定的理由来制定某种特定形式的异常值规则,但是没有一般规则,这让我们有了像我在本小节中开始的一般原则 - 以自己的方式处理每个模型/分布(如果一个值对于模型来说并不异常,为什么在这种情况下称它为异常值?)
转到标题中的问题:
虽然它是一种非常粗糙的工具(这就是我查看 QQ 图的原因),但箱线图中有几个偏斜迹象 - 如果至少有一个点被标记为异常值,则可能(至少)三个:
在这个样本(n=100)中,外部点(绿色)标记了极值,中值表示左偏。然后栅栏(蓝色)表明(与中值结合时)表明右偏度。然后铰链(四分位数,棕色)与中位数结合表明左偏度。
正如我们所看到的,它们不必是一致的。您将关注的重点取决于您所处的情况(可能还有您的偏好)。
然而,关于箱线图有多粗糙的警告。此处最后的示例(包括对如何生成数据的描述)给出了具有相同箱线图的四种完全不同的分布:
正如您所看到的,存在一个相当偏斜的分布,所有上述偏斜指标都显示出完美的对称性。
--
让我们从“鉴于这是一个箱线图,将一个点标记为异常值,您的老师期望得到什么答案?”的角度来看这个。
我们首先要回答“他们是否希望您评估不包括该点的偏度,或者将其包含在样本中?”。有些人会排除它,并评估剩余部分的偏度,就像 jsk 在另一个答案中所做的那样。虽然我对这种方法的某些方面存在争议,但我不能说它是错误的——这取决于具体情况。有些人会包括它(尤其是因为从正态性派生的规则排除了 12.5% 的样本似乎是一大步*)。
*想象一个人口分布是对称的,除了最右边的尾巴(我在回答这个问题时构造了一个这样的分布——正常,但最右边的尾巴是帕累托——但没有在我的回答中出现)。如果我抽取大小为 8 的样本,通常有 7 个观察值来自看起来正常的部分,一个来自上尾。如果我们在这种情况下排除标记为箱线图异常值的点,我们就排除了告诉我们它实际上是倾斜的点!当我们这样做时,保留在那种情况下的截断分布是左偏的,我们的结论将与正确的相反。
不,您没有错过任何内容:您实际上看到的不仅仅是所提供的简单摘要。 这些数据既有正偏斜也有负偏斜(在“偏斜”的意义上,表明数据分布中存在某种形式的不对称)。
John Tukey 通过他的“N 数总结”描述了一种探索批量数据不对称性的系统方法。箱线图是 5 个数字汇总的图形,因此可以进行这种分析。
箱线图显示 5 个数字的摘要:中位数, 两个铰链和, 和极端和. Tukey 的广义方法的关键思想是选择一些统计量反映批次的上半部分(基于等级或等价的百分位数),随着增加对应更极端的数据。每个统计有同行通过在颠倒数据后计算相同的统计数据获得(例如,通过否定值)。在一个对称批次中,每对匹配的统计信息必须位于批次的中间(这个中心将与)。因此,中间统计量的图随提供图形诊断并可以提供不对称的定量估计。
要将这个想法应用于箱线图,只需画出每对对应部分的中点:中点(已经存在)、铰链的中点(框的末端,以蓝色显示)和极值的中点(以红色显示)。
在此示例中,中间铰链与中位数相比的较低值表明该批次的中间略有负偏(从而证实了问题中引用的评估,同时将其范围适当地限制在该批次的中间) 而中极值(高得多)表明该批次的尾部(或至少其极值)是正偏斜的(尽管仔细观察,这是由于单个高异常值)。尽管这几乎是一个微不足道的例子,但与单一“偏度”统计数据相比,这种解释的相对丰富性已经揭示了这种方法的描述能力。
通过少量练习,您不必绘制这些中间统计数据:您可以想象它们在哪里,并直接从任何箱线图中读取产生的偏度信息。
Tukey 的EDA(第 81 页)中的一个示例使用了 219 座火山(以数百英尺表示)高度的九个数字摘要。他称这些统计为,,,, 和:它们(大致)对应于中间、上四分位数和下四分位数、八分位数、十六分位数和极值。我已按此顺序对它们进行了索引. 下图中的左侧图是这些配对统计数据中点的诊断图。从加速的斜率来看,很明显,当我们伸手到它们的尾巴时,数据正变得越来越正向倾斜。
中图和右图显示了平方根(数据的平方根,而不是中间数统计数据的平方根!)和(以 10 为底的)对数。根值的相对稳定性(注意相对较小的垂直范围和中间倾斜的水平)表明这批 219 个值在其中间部分和其尾部的所有部分都变得近似对称,几乎将高度重新表示为平方根时的极值。这个结果是一个强有力的——几乎令人信服的——根据平方根继续进一步分析这些高度的基础。
除其他外,这些图揭示了数据不对称性的一些定量信息:在原始尺度上,它们立即揭示了数据的不同偏度(对使用单一统计量来表征其偏度的效用提出了相当大的怀疑),而在在平方根尺度上,数据接近于它们的中间对称——因此可以用五个数字的总结或等效的箱线图来简洁地总结。偏度再次在对数尺度上明显变化,表明对数过于“强”,无法重新表达这些数据。
将箱线图推广到七、九和更多数字的摘要很容易绘制。Tukey 称它们为“示意图”。如今,许多情节都具有类似的目的,包括QQ情节等备用情节以及“豆情节”和“小提琴情节”等相对新颖的情节。(即使是低直方图也可以用于此目的。)使用这些图中的点,可以以详细的方式评估不对称性,并对重新表达数据的方式进行类似的评估。
只要没有异常值,均值小于或大于中值是通常用于确定偏斜方向的捷径。在这种情况下,分布呈负偏态,但由于异常值,均值大于中值。