什么时候异常值的偏斜量或普遍性使中位数比均值更可取?

机器算法验证 意思是 中位数
2022-03-14 04:46:38

我知道“数据中的偏差是魔鬼”,当分布高度偏斜时,最好将中值视为平均值而不是平均值,但如何确定这些硬限制。

例如:

  • 情况1:

    • 假设 X = 10,20,30,40,50,60,70
    • 在这种情况下,我认为最好使用均值,它会给出非常准确的结果。
  • 案例二:

    • 假设 X = 10,20,30,40,50,60,70,7000
    • 在这种情况下,我认为最好使用中位数而不是使用平均值。
  • 案例 3:

    • 假设 X = 10,20,30,400,500,600,700
    • 在这种情况下,我认为最好使用 IQR(四分位间距)

但是我一直坚持如何决定这些硬性限制,即通常在哪种情况下使用哪个。

我找到了一个基于主题原则的工具,它将无上下文的样本分布作为输入,并确定平均值是接近/中等还是与零假设相反。

查找参考资料:-

我真正在寻找的是一个很好的答案,它说明了如何得出这些结论。

4个回答

构筑问题

  • 你问的是一个应用和主观的问题,因此,任何答案都需要注入应用和主观的考虑。

  • 从纯粹的统计角度来看,均值和中位数都提供了有关数据样本集中趋势的不同信息。因此,根据定义,既不正确也不不正确。

  • 从应用的角度来看,我们经常想对样本的集中趋势说一些有意义的事情,其中​​集中趋势映射到“典型”的一些主观概念上。

一般想法

  • 在总结样本中的典型情况时,与平均值相差许多标准差(可能是 3 或 4 SD)的观测值将对平均值产生很大影响,但对中位数没有影响。这样的观察可能会导致平均值偏离我们认为的样本的“典型”值。这有助于解释在报告房价和收入时中值的受欢迎程度,其中太平洋中的一个岛屿或亿万富翁可能会显着影响平均值,但不会影响中值。这种分布通常可能包含极端异常值,并且分布呈正偏态。相比之下,中位数是稳健的。

  • 当数据采用有限数量的值时,中位数可能会出现问题。例如,5 点李克特项目的中位数缺乏均值所具有的细微差别。例如,均值 2.8、3.0 和 3.3 的中位数可能都为 3。

  • 一般来说,平均值的好处是可以使用更多来自数据的信息。

  • 当存在偏态分布时,也可以变换分布并报告变换后分布的平均值。

  • 当分布中包含异常值时,可以使用修剪过的平均值,或移除异常值,或将异常值调整为不太极端的值(例如,距平均值 2 SD)。

您可以在此处阅读有关集中趋势的度量:http ://en.wikipedia.org/wiki/Central_tendency 。

通常,您分析样本是为了了解(更大的)总体。通常,您对总体的了解不仅仅是样本中的数据,这通常是促使您首先进行抽样的东西。如果您知道总体具有正态分布,那么即使样本看起来不正常,样本均值也将是预期值的最佳估计量(使用像上面这样的小样本量,无论如何您都无法真正表征分布)。如果您有大量数据,即使分布不正常,您也可以可靠地估计均值(请参阅N>50 时的非正态 T 检验?)。

在无法用参数中位数描述的分布情况下,IQR 可能会提供更多信息。IQR 是一种离散量度,与作为位置量度的平均值和中位数相反。您可以在此处阅读有关分散参数的信息:http ://en.wikipedia.org/wiki/Statistical_dispersion 。

要考虑的另一个方面是您的某些数据可能是异常值(请参阅异常值的严格定义?)。

没有硬性规定。它们传达不同的信息并具有不同的属性。您选择最能传达您想要传达的内容的统计数据。或者更好的是,选择最能描述数据的统计数据。当您选择集中趋势的度量进行分析时,请记住同样的事情。

(剪掉一堆重复迈克·劳伦斯的回答的东西)

请注意,迈克·劳伦斯(Mike Lawrence)指的是令很多人感到惊讶的事情。在行为科学中,有很多民间智慧使用小样本的中位数。但实际上这完全是错误的做法,因为中位数很快就会变得比小样本的均值更有偏差。

小心中位数:它们是有偏差的估计量,偏差的程度可能会根据分布的偏斜和样本大小而变化(参见Miller,1988 年)。这意味着,如果您正在比较具有不同偏斜或不同样本大小的两个条件,您可能会发现实际上归因于偏差而不是实际差异的差异,或者当存在真实差异时您可能无法找到差异一种当偏差方向与实际偏差方向相反的情况下。