一个 X% 的修剪平均值是什么意思?

机器算法验证 修剪平均
2022-03-23 18:50:12

Rand Wilcox 在《统计方法基础》,第 1 期。版本,给出了一个公式,表示对于 20% 的修剪均值,您将修剪掉排名数据一端的 20% 和另一端的 20%,总共修剪掉 40%。

但是像 LibreOffice5 的 Calc 这样的电子表格,对于 20% 的修剪意味着只从一端修剪 10%,从另一端修剪 10%,总共修剪 20%。

哪一个是对的?

作者还写道,20% 的修剪均值最适合混合分布。这个对吗?

2个回答

“对”或“错”都不是;只是用法并不普遍。但是,我看到 Wilcox 的定义比其他定义使用得更多。 维基百科同意他的观点,我浏览过的其他几个网站也是如此,SAS和 R也是如此。

正如彼得正确指出的那样,该术语的使用约定不同,威尔科克斯使用的定义似乎(不幸的是)更常见。我不同意既非对亦非错的观点。从有序数据向量的每一侧删除 X% ,但将其称为“X% 修剪均值”的定义是僵尸定义--- 尽管存在明显且严重的缺陷,但似乎无法杀死:

  • 根据此定义,您实际上删除的数据量是您在统计数据描述中引用的“标题”数量的两倍。特别是,“50% 修剪”会删除所有数据!这与语言的基本含义相反,并且对读者具有高度误导性,他们希望删除所有数据被描述为“100% 修剪”。使用这个术语,没有明确阐述它的特性,是高度误导的。

  • 该定义也与统计讨论中假设检验和置信区间的显着性水平的类似使用完全不一致。在这些情况下,如果你有一个显着性水平 并且你创建了一个双边测试/区间,那么值是指两边的总面积因此,例如,等尾置信区间从任一侧显着性水平的两侧对称假设检验通过分配零拒绝概率来构造拒绝区域的αα1αα/2αα/2到每一边。在这两种情况下,术语都尊重显着性水平作为一个整体是固定的这一事实。

  • 该定义在两个方面都失败了:它与普通语言相反,并且与该主题其他核心领域的统计描述的公认(语言上适当的)约定不一致。

如果您出于任何目的在您自己的分析中报告修整均值,请不要喂僵尸请以更合适的含义使用该术语,其中 X% 的修剪平均值是指删除 X% 的数据。如果您担心解释,请留下脚注来解释您对该术语的使用。