这是对中心极限定理的普遍误解,我在统计教学中也遇到过。多年来,我经常遇到这个问题,因此我开发了一种苏格拉底式的方法来处理它。我确定了一个接受了这个想法的学生,然后让学生梳理出这在逻辑上意味着什么。得出该定理的错误版本的归约荒谬相当简单,即每个 IID 随机变量序列都具有正态分布。典型的对话会是这样的。
师:我注意到这个作业题你说因为很大,所以数据是近似正态分布的。你能告诉我你的推理吗?n
学生:有错吗?
老师:我不知道。让我们来看看。
学生:嗯,我用了你在课堂上讲的那个定理;你多次提到的那个主要的。我忘记了名字。
师:中心极限定理?
学生:是的,中心极限定理。
师:很好,这个定理什么时候适用?
学生:我想如果变量是独立同分布的。
师:并且有有限的方差。
学生:是的,还有有限方差。
师:好的,所以随机变量有一些固定分布,方差有限,对吗?
学生:是的。
师:分布没有变化还是什么?
学生:不,他们是具有固定分布的独立同分布。
师:好的,那我看看能不能把定理说出来。中心极限定理说,如果你有一个具有有限方差的随机变量的独立同分布序列,并且你抽取其中的个样本,那么随着样本大小变大,随机变量的分布会收敛到正态分布。是对的吗?nn
学生:是的,我想是的。
老师:好的,那我们想一想这意味着什么。假设我有一个这样的序列。如果我说,一千个样本值,这些随机变量的分布是什么?
学生:这大约是一个正态分布。
师:多近?
学生:我认为很接近。
老师:好的,如果我取十亿个样本值怎么办。现在有多近?
学生:我会说真的很接近。
师:如果我们有这些东西的序列,那么理论上我们可以取任意,不是吗?因此,我们可以使分布尽可能接近正态分布。n
学生:是的。
老师:那么假设我们取足够大,以至于我们很高兴地说随机变量基本上是正态分布的。这是一个固定的分布,对吧?n
学生:是的。
老师:他们是 IID 对吧?这些随机变量是 IID 吗?
学生:是的,他们是 IID。
师:好的,所以它们都有相同的分布。
学生:是的。
师:好的,也就是说序列中的第一个值,它也是正态分布的。是对的吗?
学生:是的。我的意思是,这是一个近似值,但是是的,如果真的很大,那么它实际上具有正态分布。n
老师:好的,很好。序列中的第二个值也是如此,依此类推,对吗?
学生:是的。
老师:好的,真的,当我们开始采样时,我们已经得到了基本上是正态分布的值。我们真的不需要等到变大才开始发生这种情况。n
学生:嗯。我不知道。这听起来不对。该定理说你需要一个大的,所以我想我认为如果你只对少量值进行采样,你就不能应用它。n
老师:好的,假设我们正在采样十亿个值。然后我们有很大的。我们已经确定这意味着序列中的前几个随机变量是正态分布的,非常接近。如果这是真的,我们不能早点停止采样吗?假设我们要采样十亿个值,但是我们在第一个值之后停止采样。那个随机变量仍然是正态分布的吗?n
学生:我想也许不是。
师:好的,那么它的分布在某个时候会发生变化吗?
学生:我不确定。我现在对此有点困惑。
师:嗯,看来我们这里发生了一些奇怪的事情。你为什么不再读一遍关于中心极限定理的材料,看看你是否能弄清楚如何解决这个矛盾。那让我们多谈谈吧。
这是一种可能的方法,它试图将错误定理减少到减少,即每个 IID 序列(具有有限方差)必须由正常随机变量组成。变大而变化来捍卫这个结论。无论哪种方式,这通常会引发一些进一步的思考,从而导致他们重新阅读该定理。这是另一种方法:n
师:我们换个角度看。假设我们有一个来自其他分布的随机变量的 IID 序列;一个不是正态分布的。那可能吗?例如,我们可以从伯努利分布中获得一系列代表硬币翻转结果的随机变量吗?
学生:是的,我们可以拥有它。
老师:好的,很好。这些都是 IID 值,所以同样,它们都具有相同的分布。所以该序列中的每个随机变量都会有一个非正态分布的分布,对吧?
学生:是的。
师:其实在这种情况下,序列中的每一个值都是抛硬币的结果,我们设置为零或一。是对的吗?
学生:是的,只要我们这样标记它们。
老师:好的,很好。因此,如果序列中的所有值都是 0 或 1,那么无论我们采样了多少,我们总是会得到一个显示 0 和 1 值的直方图,对吗?
学生:是的。
老师:好的。你认为如果我们采样越来越多的值,我们会越来越接近真实分布吗?就像,如果它是一枚公平的硬币,直方图最终会收敛到相对频率条具有相同高度的位置吗?
学生:我想是的。我认为确实如此。
师:我觉得你是对的。事实上,我们称这个结果为“大数定律”。无论如何,我们这里似乎有点问题,不是吗。如果我们对大量值进行采样,那么中心极限定理说我们收敛到正态分布,但听起来“大数定律”说我们实际上收敛到真实分布,这不是正态分布。事实上,它只是零值和一值的概率分布,看起来与正态分布完全不同。那么它是哪一个?
学生:我认为当很大时,它看起来像一个正态分布。n
师:那给我描述一下。假设我们已经将硬币翻转了十亿次。描述结果的分布并解释为什么它看起来像一个正态分布。
学生:我不太确定该怎么做。
老师:好的。好吧,你同意如果我们有十亿次硬币翻转,所有这些结果都是零和一吗?
学生:是的。
师:好,那么描述一下它的直方图是什么样子的。
学生:这些值只有两条。
师:好,那不是“钟形曲线”形的吗?
学生:是的,我想不是。
师:嗯,也许中心极限定理没有说出我们的想法。你为什么不再读一遍关于中心极限定理的材料,看看你能不能弄清楚它说了什么。那让我们多谈谈吧。