我对统计相当陌生。目前我正在研究(直方图)中位数、算术平均值和所有一般基础知识。我遇到了一个事实/规则,如果分布向右倾斜,算术平均值(总是)大于中位数。
这是为什么?
(我将不胜感激一个相当简单或易于理解的答案)。
我对统计相当陌生。目前我正在研究(直方图)中位数、算术平均值和所有一般基础知识。我遇到了一个事实/规则,如果分布向右倾斜,算术平均值(总是)大于中位数。
这是为什么?
(我将不胜感激一个相当简单或易于理解的答案)。
直方图按区域表示概率:
在该图中,白色区域(左侧)占面积的一半。蓝色区域包括另一半。它们之间的边界在是,根据定义,中位数:它将总概率精确地分成两半。
下图中的区域使用不同密度的黑色进行着色:
黑色的密度与到中间的水平距离成正比(这里约为 1.65)。附近的每个点很暗。这些点对用于着色该图的黑色墨水总量的贡献比例更大。选择中心位置(阴影变为白色的位置)以使其右侧的黑色总量等于其左侧的黑色总量。这使它等于平均值。
我们看到远处的值(比大左右)贡献了如此多的黑色,以至于他们“拉”了分界线——平均值——向着他们。
另一种看待这一点的方法是使用三个维度。平均值是两个体积(粉色/黄色和蓝色/紫色)完全相等的点:
该图是通过扫描原始直方图构建的(如图(水平)和(向上)方向)从一侧到另一侧围绕平均值。这导致右侧长长的“尾巴”扫出了更大的区域,因为它比图中的其余部分离均值更远。因此,它对音量的贡献更大。
我们是否通过扫描中位数来尝试同样的事情(在),我们会得到不相等的体积:
地面上的白线仍然显示平均值,但现在扫描轴围绕中位数。尽管中位数正确地将横截面积一分为二,但它允许更多的右侧体积,因为右侧的点“倾斜”远离中位数。因此,扫描轴必须向更大的值移动使音量平衡。
这是一个简单的答案:向右倾斜意味着最大值比最小值离平均值更远(我知道这在技术上是不正确的,也不是具体的,但它明白了)。如果最大值离平均值较远,它们对平均值的影响将大于最小值,从而使其更大。但是,对于最大值和最小值,对中位数的影响是相同的。
例如,让我们从一些对称分布的数据开始:
1 2 3 4 5
平均值 = 3,中位数 = 3。
现在,让我们将其向右倾斜,使最大值更大(远离平均值):
1 2 3 40 50
平均值 = 96/5 = 19.2 ...但中位数仍然 = 3。
“总是”是错误的:以数据为例这意味着, 中位数和正偏度。
但更典型的是,正偏度与高于中值的一些极值和低于中值的极值更少或更少有关。这些通常会推高偏度和均值。
反例可以通过在一侧具有远高于中位数的一些值和更多值但在另一侧仅适度极端来构建。