CLT 与数据条件(正态假设)有何关系?

机器算法验证 正态分布 正态假设 中心极限定理
2022-04-04 17:38:12

我在社会学研究中应用了统计方法,现在当我发现更多关于 CLT 的信息时,我感到有点困惑。

例如,如果我有 1000 个观察值的样本,我什至需要检查它的正态性,因为 CLT 指出如果样本足够大,我们的数据接近正态分布?如果它成立,为什么人们不断地绘制 q-qplot 或做像 shapiro 这样的测试来测试正常性?(此外,我们知道许多统计方法,例如 ANOVA,t 测试对于违反正态性非常稳健)

当然,当总体是正态分布并且我们有足够大的样本时,我们可以确定我们的样本是正态分布的,但如果不是,但我仍然有大样本(例如 1000),我真的应该担心这个事实吗?我的数据违反了这个假设?

对不起,如果这是个愚蠢的问题。谢谢你。

3个回答

CLT 指出,如果样本足够大,我们的数据接近正态分布

那是错误的。

如果从非正态分布的总体中抽取非常大的样本,则样本的经验分布很有可能接近总体的经验分布,这是不正常的。它不会以任何方式收敛到正态分布。

CLT 表示随着样本量的增加样本均值样本总和的抽样分布接近正态分布。那是完全不同的事情。

至于是一个足够大的样本,可以很好地近似于正态分布,那么对于非常偏斜的总体分布来说,情况并非如此。例如,如果那么这并不接近正常分配。1000X1,X2,X3,Poisson(0.001)X1++X1000Poisson(1),

我什至需要检查它的正态性,因为 CLT 指出如果样本足够大,我们的数据接近正态分布?

  • 如果样本足够大,则数据/总体的分布接近正态分布错误的。

    相反,CLT 与样本(或其他类型的变量总和)的平均值(限制)有关。

  • 但是您是对的,用于估计总体分布参数或估计误差/方差的检验统计量的样本分布通常会接近独立于总体基本分布的正态分布。

因此,对于大样本量,违反误差分布是正态分布的假设就不是问题了。(具有讽刺意味的是,正态性检验变得更加强大,并且可能拒绝假设的假设)

正如 Dave 提到的,大约一年前就这个主题提出了一个非常相似的问题,值得一看。我恰好是受访者之一,您可以在此处阅读我的答案。

以下内容将是粗略的,旨在使事情易于理解。有关更多详细信息和技术细节,请参阅我上面链接的答案(和附加评论)。

简要说明

CLT 本质上指出, 随着样本量的增加,数据均值的分布将变得正常,它没有说明数据本身的分布。所以你可以有正常的、指数的、双峰的等。分布式数据,但是,如果您的样本量足够大,则平均值的分布将是正态的。

例如,假设您正在从呈指数分布的总体测量指标。想象一下,您从总体中抽取 100 个随机样本,其中每个样本都足够大,可以应用 CLT。如果你然后取这 100 个样本的平均值,CLT 基本上表明这 100 个平均值将是正态分布的。因此,平均值的重复测量值是正态分布的,尽管基础数据实际上是指数分布的。

如果这仍然有点令人困惑,我个人发现这个(古怪的)视频非常有用,因为它很好地说明了这些概念。

那么为什么这一切都很重要呢?

知道均值是正态分布的,我们就可以使用各种参数检验(anova、t-test 等),这些检验是在假设这是真的的情况下进行的。这是 CLT 的强大功能和缺陷:能够将非正态分布的样本相互比较。

我认为这令人困惑的地方在于,仅仅因为您可以将两个样本均值相互比较并不意味着您应该这样做。(即比较两个指数分布的平均值可能不会告诉你你认为它做了什么,或者两个双峰分布,或者一个带有单峰分布的双峰,等等)。

大多数人应该问的问题是,“考虑到我的数据分布,平均值(或平均值的差异)是一个有用的指标”。只有当这个问题的答案是肯定的时,才应该继续比较手段(因此依赖于 CLT)。这就是你提到的那些 QQ 图和正态性检验的用武之地。他们检查数据本身的分布,看它是否正常。这很重要,因为在解释统计测试的结果时要牢记数据的分布是至关重要的。如果数据不遵循您期望的分布(在这种情况下是正常的),则平均值的比较可能不会告诉您您认为它做了什么。