为什么正态分布会成为如此流行(重要)的分布?我知道一个原因是因为 CLT。你能给出更多的理由吗?
正态分布的重要性
正态分布如此受欢迎的主要原因是因为它有效(至少在许多情况下足够好)。它起作用的原因实际上是因为中心极限定理。与其试图超越 CLT,我认为您(和其他人)应该更好地欣赏 CLT(我打字时墙上挂着 CLT 的十字绣)。
我们通常根据样本均值来教授和思考 CLT(这是 CLT 的强大用途),但它的范围远不止于此。CLT 还意味着,我们测量的任何变量是组合许多影响(许多与不同部分之间的关系程度相关)的结果,将接近正常。
例如:一个人的身高是由许多小的影响决定的,包括遗传(有几个基因会影响身高)、营养(不仅仅是好/坏,还包括这个人在成长过程中每天实际吃的东西)、环境污染(再次每天贡献一个小效果),和其他的东西。所以身高(在性别/种族组合内)大约是正常的。
特定区域的年降雨量是该年每日降雨量的总和,而当您将所有这些天数加在一起时,每日降雨量可能与正常情况相差甚远(零膨胀),您会得到更正常的结果。
二项分布只是伯努利斯的总和,而泊松分布可以是较小泊松的总和,任何一个都可以用正态近似(如果将足够多的部分加在一起),这不足为奇。
当共同值接近自然边界时(沙漠中的降雨、许多学生获得 100% 或接近它的考试成绩等)或只有一个(或少数)非常强大的贡献者(身高,包括两性或孩子仍在成长的不同年龄)。否则,有很多东西可以使用正态分布来近似(当你从样本中对它们进行平均时,事情变得更加正常)。
那么为什么我们需要比 CLT 更多的理由(而不是从其他很好的答案中删除)。
卸下肥皂盒
添加
由于似乎至少有 2 人想看到十字绣(根据下面的评论),这里有一张图片:
我也有贝叶斯定理和积分的中值定理的十字绣,但它们不是这个问题的主题。
我们都向中心极限定理下跪。
以下是它变得“流行”的一些不太标准的原因:
许多人从不学习超过一门统计学课程或学习超过一门介绍性教材。在此类课程或课文中,通常会涉及测试,相关性和回归,对于所有这些,至少应将正态分布作为上下文提及。相反,可能会提到某些程序不基于正态分布(卡方或 Wilcoxon-Mann-Whitney 等),这会产生与解决的问题一样多的问题。如果提到其他分布,最有可能的候选者是二项式和泊松分布,它们相当清楚地适用于不同类型的问题。从未正式研究过统计学但仍然使用它的人,即使是用于已发表的研究,也往往对统计学有相似的看法。
更高层次的理解需要意识到许多命名分布可能是相关的或有用的,这意味着不仅要学习一两个其他分布,还要了解更多。与入门课程相比,这是一个巨大的飞跃,需要更多的教学时间和更强的数学正式背景。当然,也有很多例外,例如物理、工程和经济学的学生通常应该知道正确的机械类型。不幸的是,许多使用统计学的研究人员,以及许多撰写统计学文章并为自己领域的人开课的非统计学家,都带着一种模糊的关于统计学的神话工作,比如你需要正态分布来做主流统计学,除了您可以改用非参数测试。
简而言之,流行的东西不仅取决于统计逻辑和数据的作用,还取决于所教授和记住的东西的社会学和心理学,以及它丑陋的对统计核心的误解的补充。在最坏的情况下,正常是“流行的”,因为人们几乎一无所知......
我喜欢将正态分布视为近似于(或者是极限)许多小的随机效应之和的曲线。下图中的高尔顿 Bean 机器很好地展示了这一点,这些简单的模型让您更容易想象我们为什么以及如何看到法线曲线的图案,或者看起来像它的东西,经常在我们周围。
它还说明了为什么它并不总是正确的,因为效果并不总是由许多小影响(或者有时是几个大的影响)造成的,而且这些 bean 机器实际上是二项分布,高斯曲线(或者我们应该称之为De Moivre曲线)只是它的近似值。
(是的,我知道这就像 CLT,但它赋予了该定理更实际的含义,而不仅仅是一个数学定理,所以我想说这是其中一个原因。高斯实际上给出了另一个原因,它是最小二乘和是最大似然解的误差。)
https://commons.wikimedia.org/wiki/File:Quincunx_(Galton_Box)_-_Galton_1889_diagram.png