揭穿错误的 CLT 声明

机器算法验证 正态分布 收敛 直觉 中心极限定理 沟通
2022-02-12 09:14:31

中心极限定理(CLT)给出了一些关于收敛到正态分布的很好的性质。在正式学习统计学之前,我有一种极其错误的印象,即 CLT 说数据接近正常。

我现在发现自己正在与合作者争论这个问题。我说的数据不需要在平均值的一个标准差内。他们同意,但随后又说,根据 CLT,由于我们有很多观测值(可能是 50,000),我们的数据非常接近正常值,因此我们可以使用经验法则并说的数据在一个标准差内的平均值。这当然是错误的。人口并不关心从中得出了多少观察结果;人口就是人口,无论我们是否从中抽样!68%68%

什么是解释为什么中心极限定理不是关于经验分布收敛的好方法?

4个回答

正如 whuber 所说,您始终可以将您的合作者指向二进制离散分布。但他们可能会认为这是“作弊”并退回到较弱的主张,即提议的陈述仅适用于连续分布。

所以使用单位区间上的均匀分布[0,1]. 它的意思是μ=0.5,方差为112,因此标准差为σ=1120.289. 但当然间隔[μσ,μ+σ][0.211,0.789]长度2σ0.577只包含57.7%您的数据(更具体地说:随着样本量的增加,比例接近0.577), 不是68%,无论您采样了多少数据点。

这是对中心极限定理的普遍误解,我在统计教学中也遇到过。多年来,我经常遇到这个问题,因此我开发了一种苏格拉底式的方法来处理它。我确定了一个接受了这个想法的学生,然后让学生梳理出这在逻辑上意味着什么。得出该定理的错误版本的归约荒谬相当简单,即每个 IID 随机变量序列都具有正态分布典型的对话会是这样的。

师:我注意到这个作业题你说因为很大,所以数据是近似正态分布的。你能告诉我你的推理吗?n

学生:有错吗?

老师:我不知道。让我们来看看。

学生:嗯,我用了你在课堂上讲的那个定理;你多次提到的那个主要的。我忘记了名字。

师:中心极限定理?

学生:是的,中心极限定理。

师:很好,这个定理什么时候适用?

学生:我想如果变量是独立同分布的。

师:并且有有限的方差。

学生:是的,还有有限方差。

师:好的,所以随机变量有一些固定分布,方差有限,对吗?

学生:是的。

师:分布没有变化还是什么?

学生:不,他们是具有固定分布的独立同分布。

师:好的,那我看看能不能把定理说出来。中心极限定理说,如果你有一个具有有限方差的随机变量的独立同分布序列,并且你抽取其中的个样本,那么随着样本大小变大,随机变量的分布会收敛到正态分布。是对的吗?nn

学生:是的,我想是的。

老师:好的,那我们想一想这意味着什么。假设我有一个这样的序列。如果我说,一千个样本值,这些随机变量的分布是什么?

学生:这大约是一个正态分布。

师:多近?

学生:我认为很接近。

老师:好的,如果我取十亿个样本值怎么办。现在有多近?

学生:我会说真的很接近。

师:如果我们有这些东西的序列,那么理论上我们可以取任意,不是吗?因此,我们可以使分布尽可能接近正态分布。n

学生:是的。

老师:那么假设我们取足够大,以至于我们很高兴地说随机变量基本上是正态分布的。这是一个固定的分布,对吧?n

学生:是的。

老师:他们是 IID 对吧?这些随机变量是 IID 吗?

学生:是的,他们是 IID。

师:好的,所以它们都有相同的分布。

学生:是的。

师:好的,也就是说序列中的第一个值,它也是正态分布的。是对的吗?

学生:是的。我的意思是,这是一个近似值,但是是的,如果真的很大,那么它实际上具有正态分布。n

老师:好的,很好。序列中的第二个值也是如此,依此类推,对吗?

学生:是的。

老师:好的,真的,当我们开始采样时,我们已经得到了基本上是正态分布的值。我们真的不需要等到变大才开始发生这种情况。n

学生:嗯。我不知道。这听起来不对。该定理说你需要一个大的,所以我想我认为如果你只对少量值进行采样,你就不能应用它。n

老师:好的,假设我们正在采样十亿个值。然后我们有很大的我们已经确定这意味着序列中的前几个随机变量是正态分布的,非常接近。如果这是真的,我们不能早点停止采样吗?假设我们要采样十亿个值,但是我们在第一个值之后停止采样。那个随机变量仍然是正态分布的吗?n

学生:我想也许不是。

师:好的,那么它的分布在某个时候会发生变化吗?

学生:我不确定。我现在对此有点困惑。

师:嗯,看来我们这里发生了一些奇怪的事情。你为什么不再读一遍关于中心极限定理的材料,看看你是否能弄清楚如何解决这个矛盾。那让我们多谈谈吧。

这是一种可能的方法,它试图将错误定理减少到减少,即每个 IID 序列(具有有限方差)必须由正常随机变量组成。变大而变化来捍卫这个结论。无论哪种方式,这通常会引发一些进一步的思考,从而导致他们重新阅读该定理。这是另一种方法:n

师:我们换个角度看。假设我们有一个来自其他分布的随机变量的 IID 序列;一个不是正态分布的。那可能吗?例如,我们可以从伯努利分布中获得一系列代表硬币翻转结果的随机变量吗?

学生:是的,我们可以拥有它。

老师:好的,很好。这些都是 IID 值,所以同样,它们都具有相同的分布。所以该序列中的每个随机变量都会有一个正态分布的分布,对吧?

学生:是的。

师:其实在这种情况下,序列中的每一个值都是抛硬币的结果,我们设置为零或一。是对的吗?

学生:是的,只要我们这样标记它们。

老师:好的,很好。因此,如果序列中的所有值都是 0 或 1,那么无论我们采样了多少,我们总是会得到一个显示 0 和 1 值的直方图,对吗?

学生:是的。

老师:好的。你认为如果我们采样越来越多的值,我们会越来越接近真实分布吗?就像,如果它是一枚公平的硬币,直方图最终会收敛到相对频率条具有相同高度的位置吗?

学生:我想是的。我认为确实如此。

师:我觉得你是对的。事实上,我们称这个结果为“大数定律”。无论如何,我们这里似乎有点问题,不是吗。如果我们对大量值进行采样,那么中心极限定理说我们收敛到正态分布,但听起来“大数定律”说我们实际上收敛到真实分布,这不是正态分布。事实上,它只是零值和一值的概率分布,看起来与正态分布完全不同。那么它是哪一个?

学生:我认为当很大时,它看起来像一个正态分布。n

师:那给我描述一下。假设我们已经将硬币翻转了十亿次。描述结果的分布并解释为什么它看起来像一个正态分布。

学生:我不太确定该怎么做。

老师:好的。好吧,你同意如果我们有十亿次硬币翻转,所有这些结果都是零和一吗?

学生:是的。

师:好,那么描述一下它的直方图是什么样子的。

学生:这些值只有两条。

师:好,那不是“钟形曲线”形的吗?

学生:是的,我想不是。

师:嗯,也许中心极限定理没有说出我们的想法。你为什么不再读一遍关于中心极限定理的材料,看看你能不能弄清楚它说了什么。那让我们多谈谈吧。

中心极限定理指出,随着样本量的增加,数据的平均值将变为正态分布,它没有说明数据本身。另一种说法是参数(均值)的分布是正态的,但这与基础数据的分布完全不同

CLT 的大部分价值来自这样一个事实,即您可以比较正态分布的样本(仅基于这样一个事实,即由于 CLT,您知道它们的均值应该如何表现)。

我认为这令人困惑的地方在于,仅仅因为您可以根据一些假设正态性的测试(例如 t 检验)来比较两个样本均值,并不意味着您应该这样做。(即比较两个指数分布的平均值可能不会告诉你你认为它做了什么,或者两个双峰分布,或者一个带有单峰分布的双峰,等等)。

大多数人应该问的问题是,“考虑到我的数据分布,平均值(或平均值的差异)是一个有用的指标”。只有当这个问题的答案是肯定的时,才应该继续比较手段(因此依赖于 CLT)。

如果不问这个问题,很多人就会陷入以下(粗略地说)逻辑谬误:

CLT 适用,所以我可以比较手段。我可以比较手段,因为它们是正态分布的。这种比较一定是有意义的,因为 CLT 说我可以做到(而且 CLT 非常强大)。我最直观(/仅)使用的比较/测试在数据呈正态分布时才有意义,毕竟平均值是正态分布的,所以我的数据也必须是正态分布的!

要直接回答问题,您可以:

  1. 向他们展示定义,指出 CLT 仅对接近正态性的均值分布做出声明,强调参数的分布可能与导出它的数据的分布有很大不同。

  2. 向他们展示这个视频,它提供了一个很好的视觉表示 CLT 如何使用基础数据的几种不同分布来工作。(它有点古怪,但传达得非常清楚)

附录:

我在解释中掩盖了一些技术细节,以便让不太熟悉统计数据的人更容易理解。一些评论者已经指出了这一点,所以我想我会在此处包含他们的反馈:

  • 更准确的 CLT 陈述是:

"中心极限定理指出,数据的平均值将变为正态分布(更具体地说,数据/样本的平均值与真实平均值之间的差异,乘以样本大小的平方根n是正态分布的)

我也看到这被解释为“正确归一化的总和趋于正态分布

还值得指出的是,为了应用 CLT,数据必须由具有有限方差的独立同分布随机变量组成。

  • 更准确和/或更少的贝叶斯方式来表示“参数(均值)的分布”将是“通过常规样本均值的参数估计分布

CLT 是关于随机变量总和的收敛。如果我们有一个 iid 样本X1,...,Xn, 在哪里EXi=μVar(Xi)< 然后

1n(X1+...+Xnnμ)N(0,Var(Xi))

该陈述仅是关于适当归一化和的分布的接近性(X1+...+Xn)为正态分布。它并没有说关于分布收敛的任何事情Xi. 自从Xi不依赖n他们为什么要在任何地方汇合?

样本的经验分布Xi实际上会收敛(随着样本量的增加)到实际分布Xi根据Donsker定理,除非实际分布不接近正态分布,否则经验分布也不会接近正态分布。