正如 Dave 提到的,大约一年前就这个主题提出了一个非常相似的问题,值得一看。我恰好是受访者之一,您可以在此处阅读我的答案。
以下内容将是粗略的,旨在使事情易于理解。有关更多详细信息和技术细节,请参阅我上面链接的答案(和附加评论)。
简要说明
CLT 本质上指出, 随着样本量的增加,数据均值的分布将变得正常,它没有说明数据本身的分布。所以你可以有正常的、指数的、双峰的等。分布式数据,但是,如果您的样本量足够大,则平均值的分布将是正态的。
例如,假设您正在从呈指数分布的总体测量指标。想象一下,您从总体中抽取 100 个随机样本,其中每个样本都足够大,可以应用 CLT。如果你然后取这 100 个样本的平均值,CLT 基本上表明这 100 个平均值将是正态分布的。因此,平均值的重复测量值是正态分布的,尽管基础数据实际上是指数分布的。
如果这仍然有点令人困惑,我个人发现这个(古怪的)视频非常有用,因为它很好地说明了这些概念。
那么为什么这一切都很重要呢?
知道均值是正态分布的,我们就可以使用各种参数检验(anova、t-test 等),这些检验是在假设这是真的的情况下进行的。这是 CLT 的强大功能和缺陷:能够将非正态分布的样本相互比较。
我认为这令人困惑的地方在于,仅仅因为您可以将两个样本均值相互比较并不意味着您应该这样做。(即比较两个指数分布的平均值可能不会告诉你你认为它做了什么,或者两个双峰分布,或者一个带有单峰分布的双峰,等等)。
大多数人应该问的问题是,“考虑到我的数据分布,平均值(或平均值的差异)是一个有用的指标”。只有当这个问题的答案是肯定的时,才应该继续比较手段(因此依赖于 CLT)。这就是你提到的那些 QQ 图和正态性检验的用武之地。他们检查数据本身的分布,看它是否正常。这很重要,因为在解释统计测试的结果时要牢记数据的分布是至关重要的。如果数据不遵循您期望的分布(在这种情况下是正常的),则平均值的比较可能不会告诉您您认为它做了什么。