将中位数扩展到大数据整数分布?

机器算法验证 中位数
2022-03-25 16:28:18

我正在分析整数值的大样本。因为它们来自非对称分布(高正偏度),所以我更喜欢使用中值来表征集中趋势,而不是平均值。但是,由于数据的性质,许多值等于中位数,这意味着中位数过于稳定,对数据的变化不敏感。

作为一个玩具示例,让 A = [1 1 1 2 2 2 3] 和 B = [1 2 2 2 3 3 3]。

中位数(A)和中位数(B)均为 2;但是直观地说,中位数(A)是“低2”,中位数(B)是“高2”。

在一个更现实的例子中,我们会有百万个 1 的值,几百万个 2 和一条逐渐缩小的长尾巴,比如最大值 1000。

我想知道,中位数的定义是否有任何扩展考虑到这种差异?

2个回答

修剪后的平均值是中位数的一种概括。如果您在 7 的有序样本的每个尾部修剪(意思是忽略而不是丢弃)3 个值,那么您将获得中位数;如果你修剪 0 值,那么你得到平均值。对于小样本,从数字修剪的角度思考是很自然的。这是使用 Cox (2013) 发布的代码对您的“数据”进行的基于 Stata 的计算,但输出对其他软件的用户应该是相当透明的:

set obs 7
mat A = (1, 1, 1, 2, 2, 2, 3) 
mat B = (1, 2, 2, 2, 3, 3, 3)
gen A = A[1, _n]
gen B = B[1, _n]

trimmean A, number(0/3)

+---------------------------+
| number   #   trimmed mean |
|---------------------------|
|      0   7       1.714286 |
|      1   5            1.6 |
|      2   3       1.666667 |
|      3   1              2 |
+---------------------------+

trimmean B, number(0/3)

+---------------------------+
| number   #   trimmed mean |
|---------------------------|
|      0   7       2.285714 |
|      1   5            2.4 |
|      2   3       2.333333 |
|      3   1              2 |
+---------------------------+

通常,结果显示的小数位数比需要的多。

对于较大的样本,根据修剪的分数或百分比来考虑更自然,当然也更传统。25% 的修剪平均值被赋予了不同的名称,最常见的是“midmean”。(熟悉箱线图的人可以将其视为箱内值的平均值。)

修剪装置的优点包括

  1. 易于理解和计算。修剪方法用于评判体育运动,作为在投票中消除或阻止偏见的一种方式,因此它们甚至可能为来自该领域之外的统计用户所熟悉。

  2. 与标准想法、均值和中位数的清晰链接。

  3. 灵活选择对狂野值的抵抗力和在其他值中使用信息的组合,这是项目中的一个很好的权衡。

缺点包括

  1. 灵活性是任意性的另一个名称。很难看出双变量或多变量案例的最佳扩展是什么。

  2. 值是否包括在内,至少在最简单的修剪方式中,这可能不够微妙。

  3. 除了均值和中位数的限制情况之外,修剪后的均值失去了其中任何一个的许多吸引人的属性,包括@whuber 强调的中位数和单调变换的等方差。

Cox (2013) 是一篇教程评论,强调思想和相关图形的历史。(它忽略了儒勒·凡尔纳的简短提及。)

Cox, NJ 2013。Speaking Stata: Trimming to taste。 统计杂志13:640-666。 http://www.stata-journal.com/article.html?article=st0313

我不同意你将 B 中位数描述为“上 2”,因为它的平均值是 16/7=2.29。您提到了这样一个事实,即您不喜欢分布的均值偏斜,因此将中位数描述为“上 2”将与样本均值不一致。样本 A 的平均值为 1.71。因此,样本 A 和 B的集中趋势可能是高 1低 2 。

我建议使用平均值和中位数的加权平均值:

m=wmean+(1w)median.

在您的情况下,中位数 = 2,A 和 B 的平均值为 12/7 和 16/7。所以,如果你使用w=1/3,则 m=1.9 和 2.1 将与上面提出的高 1低 2表征一致。您可以使用权重w以获得更好的学习指标。高的w会让它看起来更像是卑鄙的,低的w会使它更像一个中位数。