我有一个一维数据集,我使用该boxplot函数制作箱形图。然后我可以看到我有一些异常值。
确定分位数时是否计算异常值?
只要我们清楚使用了哪种方法,是否有正确/错误的方法或两种方法都正确?如果是这样,R是如何做到的?
我有一个一维数据集,我使用该boxplot函数制作箱形图。然后我可以看到我有一些异常值。
确定分位数时是否计算异常值?
只要我们清楚使用了哪种方法,是否有正确/错误的方法或两种方法都正确?如果是这样,R是如何做到的?
R - 像许多但不是所有程序一样 - 主要使用 Tukey 关于如何绘制箱线图的定义*。
整个原始样本用于计算铰链(绘制盒端的位置)。
铰链与四分位数非常相似(您可以说它们是一种计算上四分位数和下四分位数的特殊方法,与更常见的四分位数定义略有不同——尽管样本四分位数也有许多不同的定义;事实上,R 提供了九种不同的四分位数计算,不包括铰链本身)。
上铰链位于数据上半部分的中位数(如果是数据点,则上半部分包括原始样本的中位数),下铰链位于下半部分的中位数(也包括中位数)原始样本(如果它位于数据点):
因此,例如,对于 6 个观测值,铰链是第二大和第五大观测值(每半个 3 个点)。在 9 次观察中,铰链是第 3 和第 8 大的(每半有 5 个点,中值来自两半)。在 11 个观测值中,下铰链位于第 3 和第 4 大观测值的中间,而上铰链位于第 8 和第 9 大观测值的中间(每半个 6 个点)。该图显示了具有 13 个观察值的案例。
请注意,四分位数 (/hinges) 对异常值的值根本不敏感,只对它们在四分位数之外的事实敏感。您可以在不更改四分位数/铰链的情况下将它们全部移动到靠近盒子末端(这样没有异常值),或者尽可能远离(所以它们都离得很远),同样不改变四分位数的值. 因此,当存在“异常值”时,真的不需要做任何事情。
* 或者更确切地说,其中之一;Tukey 给出了几个定义,但就目前的目的而言,我们只需要担心铰链的计算是如何工作的;我说主要是因为带有“异常值”的版本将是 Tukey 所说的示意图,但他们不会使用两种不同的“异常值”标记来制作。