我对基本统计中通常使用的四分位数的定义很感兴趣。我有一本 Stat 101 类型的书,它只是给出了一个直观的定义。“大约四分之一的数据落在或低于第一个四分位数......”但是,它给出了一个示例,它为数据集计算 Q1、Q2 和 Q3
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
由于有 15 条数据,它选择 15 作为中位数,Q2。然后,它将剩余的数据分成两部分,5 到 14 和 16 到 37。每部分包含 7 条数据,它们分别找到这些数据集 10 和 18 的中值,分别作为 Q1 和 Q3。这就是我自己计算的方式。
我查看了维基百科的文章,它提供了 2 种方法。一个同意上述观点,另一个说您还可以在两组中包含中位数 15(但如果在偶数个数据点的情况下它是两个中间数字的平均值,则您不会包含中位数)。这一切对我来说都很有意义。
但是,然后我检查了 Excel 以了解 Excel 是如何计算它的。我正在使用 Excel 2010,它有 3 个不同的功能。Quartile 在 2007 年和之前的版本中可用。似乎他们希望您在 2010 年停止使用它,但它仍然可用。Quartile.Inc 是新的,但据我所知与 Quartile 完全一致。而且,还有 Quartile.Exc。我相信最后两个都是 2010 年的新产品。这一次,我只是尝试使用整数 1、2、3、...、10。我希望 Excel 给出的中位数为 5.5,Q1 为 3,Q3 为 8。统计书中的方法也是如此因为维基百科上的两种方法都会给出这些答案,因为中位数是中间两个数字的平均值。Excel给出
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
这些都不同意我之前所说的。
Excel 帮助文件中的描述如下:
Quartile.Inc - 返回数据集的四分位数,基于从 0..1 开始的百分位值,包括 0..1。
Quartile.Exc - 返回数据集的四分位数,基于从 0..1 开始的百分位值,不包括在内。
谁能帮我理解 Excel 使用的这个定义?