机器算法验证 - 数据呈正态分布的原因 - 吾爱随笔录

数据呈正态分布的原因

机器算法验证正态分布中心极限定理

2022-01-18 22:31:41

有哪些定理可以解释（即生成地）为什么现实世界的数据可能是正态分布的？

我知道的有两个：

中心极限定理（当然），它告诉我们几个具有均值和方差的独立随机变量的总和（即使它们不是同分布的）趋向于正态分布
让 X 和 Y 是具有可微分密度的独立连续 RV，使得它们的联合密度仅取决于 $x^2$ + $y^2$ . 那么 X 和 Y 是正常的。

（来自mathexchange的交叉帖子）

编辑： 澄清一下，我并没有声称有多少真实世界的数据是正常分布的。我只是在询问可以深入了解哪种过程可能导致正态分布数据的定理。

4个回答

离散 RV 的许多限制分布（泊松、二项式等）近似正态。想想普林科。在几乎所有近似正态性成立的情况下，正态性仅适用于大样本。

大多数现实世界的数据不是正态分布的。Micceri (1989) 的一篇名为“独角兽、正态曲线和其他不可能的生物”的论文研究了 440 种大规模的成就和心理测量指标。他发现分布在它们的时刻存在很多可变性，并且没有太多证据证明（甚至是近似的）正态性。

在 1977 年 Steven Stigler 的一篇名为“ Do Robust Estimators Work with Real Data ”的论文中，他使用了从 18 世纪著名的测量地球到太阳距离的尝试和 19 世纪测量光速的尝试中收集的 24 个数据集。他在表 3 中报告了样本偏度和峰度。数据是重尾的。

在统计学中，我们经常假设正态性，因为它使最大似然（或其他方法）很方便。然而，上面引用的两篇论文表明，这个假设往往是脆弱的。这就是稳健性研究有用的原因。

使用正态分布也有信息论的理由。给定均值和方差，正态分布在所有实值概率分布中具有最大熵。有很多消息来源讨论这个属性。一个简短的可以在这里找到。可以在Signal Processing 杂志的这篇文章中找到关于使用高斯分布的动机的更一般性讨论，其中涉及到目前为止提到的大多数论点。

在物理学中，CLT 通常被认为是在许多测量中具有正态分布误差的原因。

实验物理学中最常见的两种误差分布是正态分布和泊松分布。后者通常在计数测量中遇到，例如放射性衰变。

这两个分布的另一个有趣特征是来自高斯和泊松的随机变量之和属于高斯和泊松。

有几本关于实验科学统计的书籍，例如： Gerhard Bohm, Günter Zech, Introduction to Statistics and Data Analysis for Physicists, ISBN 978-3-935702-41-6

CLT 在对诸如总体均值之类的事物进行推断时非常有用，因为我们是通过计算一堆单独测量值的某种线性组合来实现的。然而，当我们试图对个别观察进行推断时，尤其是未来的观察（例如，预测区间），如果我们对分布的尾部感兴趣，那么与正态性的偏差就会更加重要。例如，如果我们有 50 个观测值，那么当我们说未来观测值的概率与平均值至少相差 3 个标准差时，我们就是在进行非常大的推断（和信念的飞跃）。

其它你可能感兴趣的问题

上一篇神经 ODE 的实际用途是什么？下一篇为什么我们需要自动编码器？