科学家是如何计算出正态分布概率密度函数的形状的?

机器算法验证 正态分布 历史
2022-01-17 16:05:17

这可能是一个业余问题,但我感兴趣的是科学家们是如何想出正态分布概率密度函数的形状的?基本上让我感到困扰的是,对于某些人来说,正态分布数据的概率函数具有等腰三角形而不是钟形曲线的形状可能更直观,你将如何向这样的人证明概率密度函数所有正态分布的数据都有一个钟形?通过实验?还是通过一些数学推导?

毕竟,我们实际上认为正态分布的数据是什么?遵循正态分布的概率模式的数据,还是其他?

基本上我的问题是为什么正态分布概率密度函数具有钟形而不是其他任何形状?科学家们是如何通过实验或研究各种数据本身的性质来确定正态分布可以应用于哪些现实生活场景的?


所以我发现这个链接对于解释正态分布曲线的函数形式的推导非常有帮助,从而回答了“为什么正态分布看起来像它而不是别的什么?”这个问题。真正令人兴奋的推理,至少对我而言。

4个回答

您似乎在您的问题中假设正态分布的概念在确定分布之前就已经存在,人们试图弄清楚它是什么。我不清楚这将如何工作。[编辑:至少有一种感觉,我们可能会认为这是“搜索分布”,但不是“搜索描述大量现象的分布”]

不是这种情况; 该分布在称为正态分布之前就已为人所知。

您如何向这样的人证明所有正态分布数据的概率密度函数具有钟形

正态分布函数是具有通常称为“钟形”的东西——所有正态分布都具有相同的“形状”(从某种意义上说,它们仅在规模和位置上有所不同)。

数据在分布上看起来或多或少是“钟形”,但这并不正常。许多非正态分布看起来类似“钟形”。

从中提取数据的实际人口分布可能从来都不是真正的正态分布,尽管它有时是一个相当合理的近似值。

这通常适用于我们应用于现实世界中事物的几乎所有分布——它们是模型,而不是关于世界的事实。[例如,如果我们做出某些假设(泊松过程的假设),我们可以推导出泊松分布——一种广泛使用的分布。但是这些假设是否曾经完全满足?一般来说,我们能说的最好的(在正确的情况下)是它们几乎是真的。]

我们实际上认为正态分布的数据是什么?遵循正态分布的概率模式的数据,还是其他?

是的,要真正服从正态分布,从中抽取样本的总体必须具有具有正态分布的精确函数形式的分布。因此,任何有限人口都不能是正态的。必然有界的变量不可能是正态的(例如,特定任务所花费的时间、特定事物的长度不能为负数,因此它们实际上不可能是正态分布的)。

可能更直观的是,正态分布数据的概率函数具有等腰三角形的形状

我不明白为什么这必然更直观。这当然更简单。

当第一次开发误差分布模型(特别是早期的天文学)时,数学家考虑了与误差分布相关的各种形状(包括早期的三角形分布),但在这项工作的大部分工作中,它是数学(而不是比直觉)使用的。例如,拉普拉斯研究了双指数分布和正态分布(以及其他几个分布)。类似地,高斯几乎在同一时间使用数学来推导它,但与拉普拉斯所做的考虑不同。

在狭义上,拉普拉斯和高斯考虑“误差分布”,我们可以认为这是“寻找分布”,至少在一段时间内是这样。两者都假设了他们认为重要的错误分布的一些属性(拉普拉斯认为随着时间的推移一系列略有不同的标准)导致不同的分布。

基本上我的问题是为什么正态分布概率密度函数具有钟形而不是其他任何形状?

被称为正常密度函数的事物的函数形式赋予了它这种形状。考虑标准法线(为简单起见;其他所有法线都具有相同的形状,仅在比例和位置上有所不同):

fZ(z)=ke12z2;<z<

(在哪里k只是一个常数,选择使总面积 1)

这定义了每个值的密度值x,所以它完全描述了密度的形状。那个数学对象就是我们贴上“正态分布”标签的东西。这个名字没有什么特别之处。它只是我们附加到发行版的标签。它有很多名字(并且仍然被不同的人称为不同的东西)。

虽然有些人认为正态分布在某种程度上是“常见的”,但实际上只有在特定的情况下,您甚至倾向于将其视为近似值。


分布的发现通常归功于 de Moivre(作为二项式的近似值)。实际上,当他试图逼近二项式系数(/二项式概率)以逼近其他繁琐的计算时,他实际上推导出了函数形式,但是 - 虽然他确实有效地推导出了正态分布的形式 - 他似乎没有考虑过他的近似作为概率分布,尽管一些作者确实建议他这样做。需要一定数量的解释,因此该解释存在差异的余地。

高斯和拉普拉斯在 1800 年代早期确实研究过它。Gauss 在 1809 年写了关于它(与它有关的分布,其平均值是中心的 MLE)和 Laplace 在 1810 年,作为对称随机变量之和分布的近似值。十年后,拉普拉斯给出了中心极限定理的早期形式,用于离散变量和连续变量。

分布的早期名称包括误差定律、误差频率定律它也以拉普拉斯和高斯命名,有时联合命名。

1870 年代,三位不同的作者(Peirce、Lexis 和 Galton)分别使用“正态”一词来描述分布,第一位在 1873 年,另外两位在 1877 年。这是在 Gauss 和拉普拉斯,是德莫弗近似后的两倍多。高尔顿对它的使用可能是最有影响力的,但他在 1877 年的作品中只使用了一次与它相关的“正常”一词(主要称其为“偏差定律”)。

然而,在 1880 年代,高尔顿多次使用与分布相关的形容词“正态”(例如 1889 年的“正态曲线”),他反过来对英国后来的统计学家(尤其是卡尔·皮尔森)。他没有说他为什么用这种方式使用“正常”一词,但大概是指“典型”或“通常”的意思。

卡尔·皮尔森(Karl Pearson)似乎第一次明确使用了“正态分布”这个短语。他当然在 1894 年使用过它,尽管他声称很久以前就使用过它(我会谨慎看待这一说法)。


参考:

米勒,杰夫
“一些数学词汇的最早已知用途:”
正态分布(John Aldrich 的条目)
http://jeff560.tripod.com/n.html
(替代:https://mathshistory.st-andrews。 ac.uk/Miller/mathword/n/

Stahl, Saul (2006),
“正态分布的演变”,
数学杂志,卷。79,第 2 期(四月),第 96-113 页
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

正态分布,(2016 年 8 月 1 日)。
在维基百科,免费百科全书。
检索于 2016 年 8 月 3 日 12:02,来自
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History

Hald, A (2007),
“De Moivre 对二项式的正态近似,1733 年及其推广”,
在:从伯努利到费舍尔的参数统计推断的历史,1713-1935 年;第 17-24 页

[您可能会注意到这些来源之间关于他们对 de Moivre 的描述存在重大差异]

SAUL STAHL 的“正态分布的演变”是回答您帖子中几乎所有问题的最佳信息来源。我只是为了您的方便而背诵几点,因为您会在论文中找到详细的讨论。

这可能是一个业余问题

不,对于任何使用统计数据的人来说,这都是一个有趣的问题,因为标准课程的任何地方都没有详细介绍这一点。

基本上让我感到困扰的是,对于某些人来说,正态分布数据的概率函数具有等腰三角形而不是钟形曲线的形状可能更直观,你将如何向这样的人证明概率密度函数所有正态分布的数据都有一个钟形?

从报纸上看这张照片。它显示了辛普森在发现高斯(正态)分析实验数据之前提出的误差曲线。所以,你的直觉是正确的。

在此处输入图像描述

通过实验?

是的,这就是为什么它们被称为“误差曲线”。实验是天文测量。几个世纪以来,天文学家一直在与测量误差作斗争。

还是通过一些数学推导?

再次,是的!长话短说:对天文数据误差的分析使高斯得到了他的(又名正态)分布。这些是他使用的假设:

在此处输入图像描述

顺便说一句,拉普拉斯使用了几种不同的方法,并且在处理天文数据时也提出了他的分布:

在此处输入图像描述

至于为什么正态分布在实验中显示为测量误差,这是物理学家用来给出的典型“手波”解释(引用 Gerhard Bohm,Günter Zech,物理学家统计和数据分析简介第 85 页):

许多实验信号非常接近正态分布。这是因为它们由许多贡献的总和和中心极限定理的结果组成。

“正态”分布被定义为那个特定的分布。

问题是为什么我们会期望这种特定的分布在自然界中很常见,为什么即使真实数据不完全遵循该分布,它也经常被用作近似值?(实际数据经常被发现有一个“肥尾”,即远离平均值的值比正态分布预测的更常见)。

换句话说,正态分布有什么特别之处?

法线有很多“不错”的统计特性(参见例如https://en.wikipedia.org/wiki/Central_limit_theorem),但最相关的 IMO 是任何分布的“最大熵”函数给定的均值和方差。https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

用普通语言表达这一点,如果只给你一个分布的均值(中心点)和方差(宽度),而你对它没有任何假设,你将被迫绘制一个正态分布。其他任何事情都需要额外的信息(在香农信息论的意义上),例如偏度,来确定它。

ET Jaynes 引入了最大熵原理,作为确定贝叶斯推理中合理先验的一种方式,我认为他是第一个引起人们注意这一属性的人。

请参阅此进行进一步讨论: http: //www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf

正态分布(又名“高斯分布”)具有坚实的数学基础。中心极限定理说,如果你有一组有限的 n 个独立且同分布的随机变量,具有特定的均值和方差,并且你取这些随机变量的平均值,结果的分布将收敛到高斯分布为 n走向无穷大。这里没有猜测,因为数学推导导致了这个特定的分布函数而不是其他函数。

为了更具体地说明这一点,请考虑一个随机变量,例如掷一枚公平的硬币(两种可能的结果)。获得特定结果的几率是正面的 1/2 和反面的 1/2。

如果您增加硬币的数量并跟踪每次试验获得的正面总数量,那么您将得到一个大致呈钟形的二项分布。只需绘制沿 x 轴的正面数量,以及沿 y 轴翻转那么多正面的次数。

您使用的硬币越多,翻转硬币的次数越多,图表就会越接近高斯钟形曲线。这就是中心极限定理所断言的。

令人惊奇的是,该定理并不依赖于随机变量的实际分布方式,只要每个随机变量具有相同的分布即可。该定理的一个关键思想是您正在添加平均随机变量。另一个关键概念是,随着随机变量的数量越来越大,该定理描述了数学极限。您使用的变量越多,分布就越接近正态分布。

如果您想了解数学家如何确定正态分布实际上是钟形曲线的数学正确函数,我建议您参加数学统计课程。