在我的工作中,当个人提到数据集的“平均值”时,他们通常指的是算术平均值(即“平均值”或“预期值”)。如果我提供了几何平均值,人们可能会认为我在开玩笑或没有帮助,因为“平均值”的定义是事先知道的。
我正在尝试确定数据集的“中位数”是否有多个定义。例如,一位同事提供的用于查找具有偶数个元素的数据集的中位数的定义之一是:
算法'A'
- 将元素数除以二,向下取整。
- 该值是中位数的索引。
- 即对于以下集合,中位数将是
5
。 [4, 5, 6, 7]
这似乎是有道理的,尽管四舍五入方面似乎有点武断。
算法“B”
无论如何,另一位同事提出了一个单独的算法,在他的一本统计教科书中(需要知道姓名和作者):
- 将元素的数量除以 2,并保留上舍入和下舍入整数的副本。命名它们
n_lo
和n_hi
. n_lo
取和处元素的算术平均值n_hi
。- 即对于以下集合,中位数将是
(5+6)/2 = 5.5
。 [4, 5, 6, 7]
但这似乎是错误的,因为在这种情况下,中值5.5
实际上不在原始数据集中。当我们在某些测试代码中将算法“A”替换为“B”时,它严重崩溃(正如我们所料)。
问题
这两种计算数据集中位数的方法是否有正式的“名称”?即“较小的两个中位数”与“平均中间元素和制作新数据中位数”?