序数尺度的中值

机器算法验证 中位数
2022-03-27 15:07:00

我一直在阅读有关序数水平数据集中趋势的适当度量。到目前为止,我已经了解到可以使用中位数和众数,但后者只能在某些情况下使用。一些消息来源指出,只有当分数为奇数时,中位数才能用于李克特问题。我不清楚这意味着什么,也不清楚在哪些情况下不能使用中位数。

例子:

一个例子可以说明。

  • 如果有一个问题:“气候变化是英格兰最严重的环境问题”,回答量表:1=非常同意 2=同意 3=不确定 4=不同意 5=非常不同意。中位数会是 3 = 不确定吗?
  • 如果没有受访者表示不同意或非常不同意,并且所有 100 名受访者都表示 1、2 或 3,那么中位数是否为 2?
  • 如果受访者只说 2 或 3 怎么办。在这种情况下,是否无法确定中位数?
2个回答

定义问题:

  • 中位数是数据的中间值;根据定义,它不是刻度的中间值。

  • 当样本量是偶数时,中位数是对所有值进行排序后中间最点两侧的值的平均值(参见维基百科描述)。

何时对序数数据使用中位数

  • 理论上,中值可以用于任何变量的数据,其中值可以被排序。
  • 在实践中,中位数通常不是对带有序数变量的集中趋势最有用的总结。这部分取决于你想从你的集中趋势测量中得到什么。当您描述仅具有少量响应选项(即,可能少于 20、50 或 100)的序数变量数据的集中趋势时,中位数可能非常粗略(例如,1、1、3、3 ,3 和 1,3,3,5,5 的中位数均为 3,但第二个示例的均值更高)。在总结李克特项目的集中趋势时,我发现均值对有意义的差异更加有用和敏感。作为等级的序数变量不会受到“严重性”问题的影响。
  • 插值中位数是另一种克服具有少量值的序数数据中位数的总体性质的方法。

不,中位数是一半数据小于或等于该值而一半数据大于或等于该值的值。

因此,如果您的顺序量表有 100 名受访者,则找到至少小于或等于 50 且大于或等于 50 的值。如果一半的响应来自任何一方,则只有 3 个。如果 1 人说 1,2 人说 2,3 人说 3,4 人说 4,剩下的 90 人说 5,那么 5 就是中位数。

中位数在数据有序时有效,但对于名义/无序数据没有意义,比如你最喜欢的颜色是什么?