机器算法验证 - 有没有解释为什么有这么多遵循正态分布的自然现象？ - 吾爱随笔录

有没有解释为什么有这么多遵循正态分布的自然现象？

机器算法验证分布正态分布正态假设均匀分布

2022-01-23 17:14:36

我认为这是一个引人入胜的话题，我并不完全理解它。是什么物理定律让这么多自然现象呈正态分布？它们具有均匀分布似乎更直观。

我很难理解这一点，我觉得我错过了一些信息。有人可以帮我做一个很好的解释或将我链接到一本书/视频/文章吗？

4个回答

让我从否定这个前提开始。罗伯特·吉尔里 (Robert Geary) 说（1947 年）“ ……正态性是一个神话；从来没有，也永远不会有正态分布。 ”——
正态分布是一个模型*，一个有时或多或少有用的近似值。

$\:$ *（关于这个，请参阅George Box，尽管我更喜欢我个人资料中的版本）。

某些现象近似正常可能并不令人惊讶，因为如果它们中有很多且没有一个与我们可能会看到分布看起来更正常的其余部分的总和。

趋于无穷大时标准化样本均值的正态分布收敛）至少表明我们可能会看到在样本量足够大但有限的情况下趋向于正态分布。 $n$

当然，如果标准化均值近似正常，则标准化总和将是；这就是“多效总和”推理的原因。因此，如果对变异有很多小贡献，并且它们的相关性不高，您可能会倾向于看到它。

Berry-Esseen 定理给了我们一个关于它的陈述（收敛于正态分布）实际上发生在 iid 数据的标准化样本均值（在比 CLT 稍微严格的条件下，因为它要求第三个绝对矩是有限的），如并告诉我们它发生的速度。该定理的后续版本处理sum 中非相同分布的分量，尽管偏离正态性的上限不那么严格。

不太正式地，具有相当好的分布的卷积行为给了我们额外（尽管密切相关）的理由来怀疑它在许多情况下可能往往是有限样本中的公平近似。卷积充当一种“涂抹”算子，使用跨各种核的核密度估计的人会很熟悉；一旦将结果标准化（因此每次执行此类操作时方差都保持不变），随着您反复平滑（并且每次都更改内核并不重要），就会明显地朝着越来越对称的山形方向发展。

Terry Tao在这里对中心极限定理和 Berry-Esseen 定理的版本进行了很好的讨论，并在此过程中提到了 Berry-Esseen 的非独立版本的方法。

所以至少有一类情况我们可能会看到它，并且有正式的理由认为它真的会在这些情况下发生。但是，充其量认为“许多效应的总和”的结果是正常的，这只是一个近似值。在许多情况下，这是一个相当合理的近似值（在其他情况下，即使分布的近似值并不接近，一些假设正态性的过程对单个值的分布并不是特别敏感，至少在大样本中）。

在许多其他情况下，效果不会“增加”，我们可能会期待其他事情发生；例如，在许多金融数据中，影响往往是相乘的（影响会以百分比形式移动金额，例如利率、通货膨胀和汇率）。在那里我们不期望正态性，但我们有时可能会在对数尺度上观察到正态性的粗略近似。在其他情况下，即使在粗略的意义上，两者都不合适。例如，事件间的时间通常不会被日志的正态性或正态性很好地近似；这里没有要争论的效果的“总和”或“产品”。还有许多其他现象，我们可以在特定情况下为特定类型的“法律”提出一些论据，

正如庞加莱所说，加布里埃尔·李普曼（物理学家、诺贝尔奖获得者）有一句名言：

【正态分布】不能通过严格的推论得到。它的一些推定证明很糟糕[...]。尽管如此， 每个人都相信它，就像李普曼有一天告诉我的那样，因为实验者把它想象成一个数学定理，而数学家把它想象成一个实验事实。

——亨利·庞加莱，《概率论》。1896年

[Cette loi] ne s'obtient pas par des deductions rigoureuses; 加上 d'une démonstration qu'on a voulu en donner est Grossière [...]。Tout le monde y croit cependant, me disait un jour M. Lippmann, car les experimentateurs s'imaginent que c'est un théorème de mathématiques, et les mathematiciens que c'est un fait experimental。

似乎我们的统计报价列表线程中没有此报价，这就是为什么我认为在此处发布它会很好。

是什么物理定律让这么多自然现象呈正态分布？它们具有均匀分布似乎更直观。

正态分布在自然科学中很常见。通常的解释是为什么它发生在测量误差中是通过某种形式的大数或中心极限定理 (CLT) 推理，通常是这样的：“因为实验结果受到来自无关来源 CLT 的无限大量干扰的影响表明错误将呈正态分布”。例如，这是WJ Metzger的数据分析中的统计方法的摘录：

我们测量的大部分实际上是许多 rv 的总和。例如，您用尺子测量桌子的长度。您测量的长度取决于许多小影响：光学视差、标尺校准、温度、您的握手等。数字仪表在其电路的各个位置都有电子噪声。因此，你测量的不仅仅是你想要测量的，而是添加了大量（希望是）小的贡献。如果这个小贡献的数量很大，CLT 会告诉我们它们的总和是高斯分布的。这种情况经常发生，这也是分辨率函数通常是高斯函数的原因。

但是，正如您必须知道的那样，这当然并不意味着每个分布都是正常的。例如，在处理计数过程时，泊松分布在物理学中很常见。在光谱学中，柯西（又名布莱特维格纳）分布用于描述辐射光谱的形状等。

写完后我意识到了这一点：到目前为止提到的所有三个分布（高斯、泊松、柯西）都是稳定分布，而泊松是离散稳定的。现在我想到了这一点，它似乎是分布的一个重要质量，可以使它在聚合中存活：如果你从泊松中添加一堆数字，总和就是泊松。这可能“解释”（在某种意义上）为什么它如此普遍。

在非自然科学中，出于各种原因，您必须非常小心地应用正态（或任何其他）分布。特别是相关性和依赖性是一个问题，因为它们可能会破坏 CLT 的假设。例如，在金融领域，众所周知，许多系列看起来很正常，但尾巴却很重，这是风险管理中的一个大问题。

最后，在自然科学中，正态分布比我之前引用的那种“挥手”推理有更充分的理由。考虑一下布朗运动。如果冲击是真正独立且无穷小的，那么由于CLT，可观测路径的分布不可避免地会呈正态分布，例如参见爱因斯坦著名著作《布朗运动理论研究》中的式(10) 。他甚至懒得用今天的名字“高斯”或“正常”来称呼它。

另一个例子是量子力学。碰巧的是，如果坐标和矩的不确定性来自正态分布，则总不确定性达到最小值，即海森堡的不确定性阈值，请参见此处的 Eq.235-237 。 $\Delta x$ $\Delta p$ $\Delta x \Delta p$

因此，不同领域的研究人员对使用高斯分布的反应非常不同，不要感到惊讶。在物理学等某些领域，某些现象预计会自然地与高斯分布联系起来，这是基于大量观察支持的非常可靠的理论。在其他领域，正态分布因其技术便利、方便的数学特性或其他可疑原因而被使用。

这里有很多过于复杂的解释......

它与我有关的一个好方法如下：

掷一个骰子，掷出每个数字 (1-6) 的可能性相同，因此 PDF 是恒定的。
掷两个骰子并将结果相加，PDF 不再是常数。这是因为有 36 个组合，总和范围是 2 到 12。 2 的可能性是 1 + 1 的唯一奇异组合。12 的可能性也是独一无二的，因为它只能出现在 6 + 6 的单一组合中。现在看 7，有多种组合，即 3 + 4、5 + 2 和 6 + 1 (及其反向排列）。当您远离中间值（即 7）时，6 和 8 等的组合较少，直到您到达 2 和 12 的奇异组合。这个例子不会导致明显的正态分布，但更多的 die您添加的样本越多，则结果将趋于正态分布。
因此，当您对一系列受随机变化影响的自变量求和时（每个变量都可以有自己的 PDF），结果输出越趋于正态性。这在六西格码术语中为我们提供了我们所说的“过程之声”。这就是我们所说的系统“共因变异”的结果，因此，如果输出趋于正态，那么我们称该系统为“统计过程控制”。如果输出不正常（偏斜或偏移），那么我们说系统受到“特殊原因变化”的影响，其中存在某种“信号”以某种方式使结果产生偏差。

希望有帮助。

其它你可能感兴趣的问题

上一篇是否存在任何（深度）神经网络显然无法胜过任何其他方法的监督学习问题？下一篇具有低方差的 PC“有用”的 PCA 示例