用外行术语解释均值、中位数、众数

机器算法验证意思是描述性统计中位数模式

2022-03-19 16:57:12

您如何解释数字列表的均值、中位数和众数的概念，以及为什么它们对只有基本算术技能的人很重要？更不用说偏度、CLT、集中趋势、它们的统计特性等了。

我已经向某人解释过，mean 只是一种“总结”数字列表的快速而肮脏的方式。但回过头来看，这几乎没有启发性。

有什么想法或现实世界的例子吗？

4个回答

感谢您提出这个关于均值、中位数和众数的基本统计概念的简单而深刻的问题。有一些很棒的方法/演示可用于解释和掌握对这些概念的直观理解 - 而不是算术 - 理解，但不幸的是，它们并不广为人知（据我所知，也没有在学校教授过）。

意思是：

1、平衡点：以均值为支点

理解均值概念的最佳方法是将其视为均匀杆上的平衡点。想象一系列数据点，例如 {1,1,1,3,3,6,7,10}。如果这些点中的每一个都标记在一根均匀的杆上，并且在每个点上放置相同的重量（如下所示），那么支点必须放在数据的平均值上，以使杆保持平衡。

这种视觉演示也导致了算术解释。其算术原理是，为了使支点平衡，与平均值的总负偏差（在支点的左侧）必须等于与平均值的总正偏差（在右侧）。因此，均值充当分布中的平衡点。

这种视觉效果可以立即了解与数据点分布相关的平均值。从这个演示中显而易见的平均值的其他属性是平均值总是在分布中的最小值和最大值之间。此外，异常值的影响很容易理解——异常值的存在会改变平衡点，从而影响均值。

2. 再分配（公平分享）价值

另一种理解均值的有趣方法是将其视为重新分配值。这种解释确实需要对均值计算背后的算术有所了解，但它利用拟人化的特性——即社会主义再分配概念——来直观地掌握均值的概念。

平均值的计算涉及对分布（值集）中的所有值求和，然后将总和除以分布中的数据点数。

\bar{x} = (\sum_{i = 1}^{n} x_{i}) / n

$\bar{x} = (\sum_{i=1}^n{x_i})/n$

理解此计算背后的基本原理的一种方法是将每个数据点视为苹果（或其他一些可替代的项目）。使用与之前相同的示例，我们的样本中有 8 个人：{1,1,1,3,3,6,7,10}。第一个人有一个苹果，第二个人有一个苹果，以此类推。现在，如果想要重新分配苹果的数量以使每个人都“公平”，您可以使用分布的均值来做到这一点。换句话说，您可以给每个人四个苹果（即平均值），以使分配公平/平等。该演示为上述公式提供了直观的解释：将分布的总和除以数据点的数量相当于将整个分布平均划分为所有数据点。

3. 视觉助记符

以下这些视觉助记符以独特的方式提供了对均值的解释：

这是均值的平准值解释的助记符。A 的横杆高度是四个字母高度的平均值。

这是平衡点解释均值的另一个助记符。支点的位置大致是 M、E 和倍 N 的位置的平均值。

中位数

一旦理解了均值作为杆上平衡点的解释，中位数就可以通过相同概念的扩展来证明：项链上的平衡点。

用绳子代替杆，但保留数据标记和重量。然后在末端连接第二根绳子，比第一根长，形成一个环[像项链一样]，然后将环悬垂在一个润滑良好的滑轮上。

假设，最初，权重是不同的。当每侧的重量相同时，滑轮和环平衡。换句话说，当中位数是最低点时，循环“平衡”。

请注意，如果其中一个权重在循环中向上滑动创建异常值，则循环不会移动。这从物理上证明了中位数不受异常值影响的原则。

模式

模式可能是最容易理解的概念，因为它涉及最基本的数学运算：计数。它等于最常出现的数据点这一事实导致了一个首字母缩略词：“ Most - often O ccurring Data Element ”。

众数也可以认为是一组中最典型的值。（尽管对“典型”的深入理解会导致代表或平均值。但是，根据“典型”一词的字面意思将“典型”与模式等同起来是适当的。）

资料来源：

中位数是一个平衡点——林奇，《大学数学杂志》（2009 年）
使统计数据令人难忘：新的助记符和动机 - Lesser，统计教育，JSM（2011 年）
关于在教学统计中使用助记符 - Lesser，模型辅助统计和应用，6（2），151-160（2011）
是什么意思？– Watier、Lamontagne 和 Chartier，统计教育杂志，第 19 卷，第 2 期（2011 年）
典型的？儿童和教师对平均值的看法 – Russell 和 Mokros，ICOTS 3 (1990) 总体参考： http ://www.amstat.org/publications/jse/v22n3/lesser.pdf

我不得不怀疑您的标准是否可以实现，因为您似乎希望用最少的材料获得最大的有效性和解释力。但是一个简单的例子，比如

1 1 2 2 2 3 3 4 5 6 15

允许立即计算众数 (2)、中位数 (3) 和平均值 (44/11) = 4，因此表明它们可以不同。

然后你可以解释最常见的值，中间值和平均值的想法是不同的。并引入并发症

更改值以显示模式可能不明确
使用偶数个值的示例来解释计算中位数的约定
尾部中的不同值以强调均值发生了什么，以及为什么和为什么不可能是可取的。
使用更简单的例子，其中两个或三个均值、中位数、众数重合。

我在教学中没有提到集中趋势，只是说它是各种文献中的一个术语。我更喜欢谈论水平以及如何量化它。相反，我认为任何严肃的数据分析都是不可能的，除非人们对偏斜的感觉比对称更常见。

这就是我解释它们的方式：

（算术）平均值是将整个数据集考虑在内的点，并位于“中间”的某个位置。让他们想一想空间中的点云或斑点：平均值是该点云的质心。

中位数是“在所有边上都有相同数量的点”的点（显然“边”的概念在 2+ 维度中没有明确定义）。这代表了另一种“中间”，实际上在某种意义上更直观。考虑到空间中的同一个斑点，很明显，如果这个斑点是不平衡的，那么平均值就会移动。但是这种不平衡可以通过以下两种方式之一来实现：要么在一个区域中添加更多点，要么增加该区域中点的分散度。如果在不增加点数的情况下增加一个区域的点的离散度，那么中位数仍然“在所有边上”具有相同的点数，并且不会与平均值相称地移动。

你可以用两个非常微不足道的“blob”来证明这一点： $y = (1, 2, 3, 4, 5)$ 和 $y' = (1, 2, 3, 4, 99)$ . $\operatorname{mean}(y) = \operatorname{median}(y)$ ，然而 $\operatorname{mean}(y') > \operatorname{median}(y')$ . 但我建议首先从几何/视觉“基于 blob”的解释开始：根据我的经验，从挥手图形演示开始会更容易，然后转向具体的玩具示例。我发现大多数人（包括我自己）都不是天生以数字为导向的，从数字解释开始会造成混乱。您可以随时返回并在以后教授更精确的定义。

如果从该blob 中随机采样点，则模式是最有可能出现的点（认识到这是对连续数据的欺骗）。这可以但不必位于平均值或中位数附近。

一旦你解释了这些概念，你就可以进入一个更“统计”的演示：

实线是平均值。虚线是中位数。虚线是模式。平均值表示数据点沿 x 轴的位置，而中位数仅反映两侧数据点的数量。众数只是最大概率的点，它不同于均值和中位数。

代码：

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)

“均值”、“中位数”和“众数”是不同领域的“集中趋势”，也就是“最可能的结果”。它们都是不同“游戏”中的“最佳赌注”。

概率和统计是一个部分由赌徒建立的领域（链接，链接）。当您参加赛马或扑克桌时，您想了解一些有助于您获胜的科学。他们也这样做了，并写了它，所以你不必自己发明它。

在赛马中，你想选出一个获胜者。你没有未来的信息，但你知道一些过去的信息。你知道在过去的几场比赛中每匹马跑得有多快。如果您想估计他们在下一场比赛中可能跑多快，您可以计算并比较平均值，也就是平均，比赛时间。

另一个集中趋势是“中位数”——它是排序列表的中心。如果我在你的比赛时间列表上打了一个可怕的错字，而这个值是其他所有时间的 1000 倍，该怎么办。它会打乱你的估计。你可能不会赌赢的马。你如何解决这个问题？您可以手动查找该值，也可以使用“中位数”。

如果您正在玩牌，例如“二十一点”，并且您正在尝试根据之前的牌来确定是否需要另一张牌。您要查找的卡不是 3.14，因为卡号是整数值。当“平均”或中位数没有意义时，您如何确定最好的选择是什么？在这种情况下，您想在“模式”上下注——最有可能从庄家牌堆中出来的牌。

在所有这三种情况下，集中趋势只是“最佳选择”的另一种说法。

如果您不仅想在投注中考虑集中趋势，也就是说，如果您想投注以便能够减少损失的影响同时最大化赢利，那么您必须查看“变化趋势”。诸如标准偏差、分位数范围或替代模式及其频率之类的东西都用于最小化最大损失，同时最大化可能的赢利。

其它你可能感兴趣的问题

上一篇lm模型中的学生化残差v / s标准化残差下一篇数据空间、变量空间、观察空间、模型空间（例如在线性回归中）