我在很多地方读到计算序数变量的平均值是不合适的。我试图了解为什么它可能不合适。我认为这是因为,一般来说,序数变量不是正态分布的,因此计算平均值会给出不准确的表示。有人可以更详细地解释为什么计算序数变量的平均值可能不合适吗?
计算序数变量的平均值
一个简短的回答是,这是有争议的。与您提到的建议相反,许多领域的人确实采用序数尺度,并且通常很高兴这意味着做他们想做的事。许多教育系统中的平均成绩或同等学历就是一个例子。
然而,非正态分布的序数数据不是一个正当的理由,因为平均值是
广泛用于非正态分布
对于很多非正态分布,在数学上定义良好,但在某些病理情况下除外。
如果数据绝对不是正态分布的,那么在实践中使用平均值可能不是一个好主意,但那是不同的。
对序数数据不使用均值的一个更强有力的原因是它的值取决于编码约定。诸如 1、2、3、4 之类的数字代码通常只是为了简单或方便而选择,但原则上它们同样可以是 1、23、456、7890,只要对应于所定义的顺序。在任何一种情况下取平均值都会涉及从字面上理解这些约定(即,好像这些数字不是任意的,而是合理的),并且没有严格的理由这样做。您需要一个区间标度,其中值之间的相等差异可以从字面上理解,以证明采取均值的合理性。我认为这是主要论点,但正如已经指出的那样,人们经常故意忽略它,因为他们发现手段有用,无论测量理论家怎么说。
这是一个额外的例子。人们经常被要求选择“非常不同意”......“非常同意”并且(部分取决于软件想要什么)研究人员将其编码为 1 .. 5 或 0 .. 4 或任何他们想要的,或声明它作为有序因子(或软件使用的任何术语)。这里的编码是任意的,对回答问题的人来说是隐藏的。
但人们也经常被问到(比如说)从 1 到 5 的等级,你如何评价某件事?例子比比皆是:网站、体育、其他类型的比赛,甚至教育。在这里,人们被展示了一个规模并被要求使用它。众所周知,非整数是有意义的,但您只是被允许使用整数作为约定。这是序数尺度吗?有人说是,有人说不是。换句话说,部分问题在于序数尺度本身就是一个模糊或有争议的领域。
再考虑一下学术工作的成绩,比如 E 到 A。这些成绩通常也以数字形式处理,比如 1 到 5,人们通常会计算学生、课程、学校等的平均值,并对这些数据进行进一步分析。尽管任何到数字分数的映射都是任意的,但只要它保持顺序,它仍然是可以接受的,但实际上分配和接收分数的人知道分数具有数字等价物并且知道分数将被平均。
使用均值的一个实际原因是中位数和众数通常是数据中信息的差劲总结。假设你有一个从非常不同意到非常同意的量表,为了方便起见,将这些点编码为 1 到 5。现在想象一个样本编码为 1、1、2、2、2 和另一个样本 1、2、2、4、5。现在提出如果您认为中位数和众数是唯一合理的总结,请您的手,因为它是一个序数尺度。现在,如果您发现均值也有用,请举手,无论总和是否定义明确,等等。
自然,如果代码是 1 到 5 的平方或立方,则平均值将是一个敏感的总结,这可能不是您想要的。(如果您的目标是快速识别出高手,它可能正是您想要的!)但这正是为什么使用连续整数代码的传统编码是一种实际选择的原因,因为它在实践中通常效果很好。这不是一个对测量理论家有任何影响的论点,也不应该,但数据分析师应该对生成信息丰富的摘要感兴趣。
我同意任何人的说法:使用成绩频率的整个分布,但这不是问题的重点。
假设我们采用序数值,例如 1 表示非常不同意,2 表示不同意,3 表示同意,4 表示非常同意。如果四个人分别给出 1、2、3 和 4 的回答,那意味着什么?它是 (1+2+3+4)/4=2.50。
当四个人的平均反应是“不同意或同意”时,应该如何解释?这就是为什么我们不应该对序数数据使用均值。
我完全同意@Azeem。但是,为了将这一点带回家,让我进一步详细说明。
假设您有来自@Azeem 的示例中的序数数据,其中您的等级范围从 1 到 4。假设您有几个人在这个等级上对某些东西(如冰淇淋)进行评分。想象一下,您得到以下结果:
- A 说 4
- B 说 3
- C 说 1
- D 说 2
当您想解释结果时,您可以得出以下结论:
- A 人比 B 人更喜欢冰淇淋
- D 人比 C 人更喜欢冰淇淋
但是,您对评级之间的间隔一无所知。1和2的区别与3和4的区别一样吗?评分 4 真的意味着这个人喜欢冰淇淋的次数是评分为 1 的人的 4 倍吗?依此类推……当您计算算术平均值时,您将这些数字视为它们之间的差异相等。但对于序数数据,这是一个非常强的假设,你必须证明它是合理的。
我同意算术平均值在序数比例数据中不能真正证明的概念。在这种情况下,我们可以使用众数或中位数来代替计算平均值,这可以为我们的结果提供更有意义的解释。