修剪后的平均值是中位数的一种概括。如果您在 7 的有序样本的每个尾部修剪(意思是忽略而不是丢弃)3 个值,那么您将获得中位数;如果你修剪 0 值,那么你得到平均值。对于小样本,从数字修剪的角度思考是很自然的。这是使用 Cox (2013) 发布的代码对您的“数据”进行的基于 Stata 的计算,但输出对其他软件的用户应该是相当透明的:
set obs 7
mat A = (1, 1, 1, 2, 2, 2, 3)
mat B = (1, 2, 2, 2, 3, 3, 3)
gen A = A[1, _n]
gen B = B[1, _n]
trimmean A, number(0/3)
+---------------------------+
| number # trimmed mean |
|---------------------------|
| 0 7 1.714286 |
| 1 5 1.6 |
| 2 3 1.666667 |
| 3 1 2 |
+---------------------------+
trimmean B, number(0/3)
+---------------------------+
| number # trimmed mean |
|---------------------------|
| 0 7 2.285714 |
| 1 5 2.4 |
| 2 3 2.333333 |
| 3 1 2 |
+---------------------------+
通常,结果显示的小数位数比需要的多。
对于较大的样本,根据修剪的分数或百分比来考虑更自然,当然也更传统。25% 的修剪平均值被赋予了不同的名称,最常见的是“midmean”。(熟悉箱线图的人可以将其视为箱内值的平均值。)
修剪装置的优点包括
易于理解和计算。修剪方法用于评判体育运动,作为在投票中消除或阻止偏见的一种方式,因此它们甚至可能为来自该领域之外的统计用户所熟悉。
与标准想法、均值和中位数的清晰链接。
灵活选择对狂野值的抵抗力和在其他值中使用信息的组合,这是项目中的一个很好的权衡。
缺点包括
灵活性是任意性的另一个名称。很难看出双变量或多变量案例的最佳扩展是什么。
值是否包括在内,至少在最简单的修剪方式中,这可能不够微妙。
除了均值和中位数的限制情况之外,修剪后的均值失去了其中任何一个的许多吸引人的属性,包括@whuber 强调的中位数和单调变换的等方差。
Cox (2013) 是一篇教程评论,强调思想和相关图形的历史。(它忽略了儒勒·凡尔纳的简短提及。)
Cox, NJ 2013。Speaking Stata: Trimming to taste。
统计杂志13:640-666。
http://www.stata-journal.com/article.html?article=st0313