正态分布和单调变换

机器算法验证 数据转换 正态假设
2022-03-17 02:18:00

我听说自然界中存在的很多量都是正态分布的。这通常使用中心极限定理来证明,该定理表示,当您平均大量 iid 随机变量时,您会得到正态分布。因此,例如,由大量基因的加性效应确定的性状可能近似正态分布,因为基因值的行为可能大致类似于 iid 随机变量。

现在,让我感到困惑的是,正态分布的性质在单调变换下显然不是不变的。因此,如果有两种测量与单调变换相关的事物的方法,它们不太可能都是正态分布的(除非单调变换是线性的)。例如,我们可以通过直径、表面积或体积来测量雨滴的大小。假设所有雨滴的形状相似,表面积与直径的平方成正比,体积与直径的立方成正比。所以所有这些测量方式都不能是正态分布的。

所以我的问题是,使分布变为正态的特定缩放方式(即单调变换的特定选择)是否必须具有物理意义。例如,高度应该是正态分布的还是高度的平方,还是高度的对数,还是高度的平方根?有没有办法通过了解影响身高的过程来回答这个问题?

4个回答

非常好的问题。我认为答案取决于您是否可以识别导致相关测量的潜在过程。例如,如果您有证据表明身高是几个因素的线性组合(例如,父母的身高、祖父母的身高等),那么很自然地假设身高是正态分布的。另一方面,如果您有证据甚至理论表明身高对数是多个变量的线性组合(例如,对数父母身高、对数祖父母身高等),那么身高对数将呈正态分布。

在大多数情况下,我们不知道驱动感兴趣的测量的基本过程。因此,我们可以做以下几件事之一:

(a) 如果身高的经验分布看起来是正常的,那么我们使用正态密度进行进一步分析,这隐含地假设身高是几个变量的线性组合。

(b) 如果经验分布看起来不正常,那么我们可以尝试mbq建议的一些变换(例如 log(height))。在这种情况下,我们隐含地假设转换后的变量(即 log(height))是几个变量的线性组合。

(c) 如果 (a) 或 (b) 没有帮助,那么我们必须放弃 CLT 和正态假设给我们的优势,并使用其他分布对变量进行建模。

在可能的情况下,特定变量的重新标度应该与一些可理解的标度相关,因为它有助于使生成的模型具有可解释性。然而,由此产生的转变不需要绝对具有物理意义。本质上,您必须在违反正态假设和模型的可解释性之间进行权衡。在这些情况下,我喜欢做的是拥有原始数据,以有意义的方式转换数据,并以最正常的方式转换数据。如果以有意义的方式转换的数据与以使其最正常的方式转换数据时的结果相同,我以一种可以解释的方式报告它,并附带说明,在优化转换(和/或未转换)数据的情况下,结果是相同的。当未转换的数据表现特别差时,我使用转换后的数据进行分析,但尽我所能以未转换的单位报告结果。

另外,我认为您的陈述中有一个误解,即“自然界中发生的数量是正态分布的”。这仅在值“由大量独立因素的加性效应确定”的情况下才成立。也就是说,平均值和总和是正态分布的,而不管它们从中得出的基础分布如何,因为单个值不应该是正态分布的。例如,来自二项分布的单个抽取看起来并不完全正常,但是来自二项分布的 30 个抽取之和的分布看起来确实很正常。

我必须承认我不太明白你的问题:

  • 您的雨滴示例不是很令人满意,因为这并不能说明高斯行为来自“大量 iid 随机变量的平均值”这一事实。

  • 如果您感兴趣的量是一个平均,它以高斯方式围绕其平均值波动,您还可以期望具有高斯行为。XY1++YNNf(Y1)++f(YN)N

  • 如果围绕其均值的波动近似为高斯波动且很小,那么围绕其均值的波动也是如此(通过泰勒展开)Xf(X)

  • 你能举出一些来自平均的(现实生活)高斯行为的真实例子吗:这不是很常见!高斯行为通常在统计中用作第一个粗略近似,因为计算非常容易处理。物理学家使用谐波近似,统计学家使用高斯近似。

Vipul,你的问题并不完全准确。

这通常使用中心极限定理来证明,该定理表示,当您平均大量 iid 随机变量时,您会得到正态分布。

我不完全确定这就是您所说的,但请记住,您示例中的雨滴不是 iid 随机变量。通过采样一定数量的雨滴计算的平均值是随机变量,并且由于使用足够大的样本量计算平均值,该样本平均值的分布是正态的。

大数定律表明该样本均值的值收敛于总体的平均值(强或弱取决于收敛的类型)。

CLT 表示样本均值,称为 XM(n),它是一个随机变量,具有分布,例如 G(n)。当 n 接近无穷大时,该分布是正态分布。CLT 完全是关于分布的收敛,而不是一个基本概念。

您绘制的观察结果(直径、面积、体积)根本不必是正常的。如果您绘制它们,它们可能不会。但是,获取所有三个观察值的样本均值将具有正态分布。而且,体积不会是直径的立方,面积也不会是直径的平方。总和的平方不会是平方和,除非你非常幸运。