这个问题来自阅读这篇文章:T-test for non normal when N>50?
在对这篇文章的回复中,作者很好地概述了关于 t 检验的正态性假设是关于均值的抽样分布而不是总体分布。
但是,参数统计使用样本数据来推断总体参数,例如均值或两个总体之间的均值差异。如果人口分布不正态,则说明人口均值不能很好地代表人口的集中趋势。因此,即使当数据不正常且样本量足够大时,不违反 t 检验的测试假设本身,但当总体不正常时,从测试中获得的推论是否具有信息性,因此无法很好地描述均值和方差?
这个问题来自阅读这篇文章:T-test for non normal when N>50?
在对这篇文章的回复中,作者很好地概述了关于 t 检验的正态性假设是关于均值的抽样分布而不是总体分布。
但是,参数统计使用样本数据来推断总体参数,例如均值或两个总体之间的均值差异。如果人口分布不正态,则说明人口均值不能很好地代表人口的集中趋势。因此,即使当数据不正常且样本量足够大时,不违反 t 检验的测试假设本身,但当总体不正常时,从测试中获得的推论是否具有信息性,因此无法很好地描述均值和方差?
我需要首先纠正问题中的一些错误或部分错误的想法(以及一些不在问题中但常见且可能间接影响您提出问题的方式的想法),但我会回到主要问题。
您链接到的答案说:
t检验假设不同样本的均值呈正态分布;它不假设人口是正态分布的。
正如答案下方的评论之一指出的那样,这种说法是不正确的。
t 统计量具有 t 分布的推导依赖于从中得出观察值的分布是正态的,而不仅仅是平均值。请注意,t 统计量不仅仅是一个分子,而是两个事物的比率。
您需要 t 统计量中的分母(i)按比例分布 chi 和(ii)独立于分子。
我知道没有任何结果使 t 统计量在任何其他感兴趣的一般情况下具有 t 分布。
此外,虽然您可以使用 CLT 加上 Slutsky 定理来论证 t 统计量将渐近接近标准正态,(因此,当样本量趋于无穷大时,您会接近水平-$α$ 检验),但没有什么可以使它接近$t$(例如,至少在某些情况下,它可能总是更好地近似于法线而不是t,一直随着$n$ 的增加)。 test) there's nothing that makes it approach the (e.g. at least in some situations, it might always be better approximated by the normal than it is by the t, all along the way as increases).
也没有说这样的测试会有很好的能力(即,这会让我们关心使用它)。事实上,与替代品相比,渐近的功效可能非常差(实际上 t 检验的 ARE 可以变为零)。
[该答案下的评论之一指出了此错误,但回答者尚未解决。]
然而,尽管如此,t 检验通常至少能起到一定的作用。但这是随意的观察,在任何意义上都不是定理。在不了解某人正在处理的情况的情况下过度依赖它是不行的。
参数统计使用样本数据来推断总体参数,例如均值或两个总体之间的均值差异。
我认识到您并不是说参数统计只是关于那里的手段,但我想花一点时间来处理他们所做的一个不罕见的想法。
一些参数方法确实关注均值,但参数方法通常不关注均值。(许多没有正确讨论该理论的书籍都设法完全错误地理解了这一点。“参数”一词与正态性无关,也与均值无关。)
如果人口分布不正态,则说明人口均值不能很好地代表人口的集中趋势。
一个人可以关心一个人口的意思,而无需远程关心任何“集中趋势”可能是什么。
考虑指数分布。
此分布通常用于对许多事物进行建模。一个典型的例子是事件间时间(实际上您可以将其推导出为泊松过程中的事件间时间)。假设我们正在这样做(将其用作事件间时间的模型)。它看起来像这样:
这里 x 轴上的标签代表总体平均值的倍数(因为它是以平均值为单位的,所以总体平均值为 1)。
我什至不确定我们是否可以说指数分布 具有集中趋势——但使用它的总体均值来描述这个过程是非常有意义的,它仍然是事件间的平均时间。这不是单个事件的典型事件间时间,但如果我反复经历这个过程,这意味着非常有趣。
当总体不正常并且因此均值和方差描述不佳时,从测试中获得的推论是否提供信息?
在一些非常特殊的情况之外,这不是考虑它的最佳方式。感兴趣的特定人口参数是否是典型的分布并不重要(无论从什么意义上说,“典型”是什么意思)。
即使平均值不是“典型”值(例如,当平均值和众数完全不同时),总体平均值也很容易引起人们的兴趣。是否对特定的总体参数感兴趣(可能适用于某些假设)与其说是分布是什么样的问题,不如说是您想要回答的问题。
例如,如果在上面的例子中我必须等待 100 个事件间时间,那么个人时间的总体平均值是需要考虑的重要事情,尽管大多数时候我等待的时间比平均值少得多.
我们还可以在不假设正态性的情况下基于样本均值构建测试(这与上述问题无关,但您似乎将这两个问题部分混为一谈,所以我最好讨论一下)。在上面的指数模型中,我们有一个不同的参数假设,我们可以基于该假设进行合适的测试(并且它可以明智地基于样本均值,尽管在比较两个小样本时这不是最佳选择)。或者,如果我们没有参数模型,我们仍然可以构建一个不做参数假设但仍然处理(例如)总体均值差异的测试(例如样本均值差异的置换测试) .
然而,另一方面,仅仅因为我可能想要测试与总体均值相关的某些东西,这并不一定意味着样本均值是构建它的测试的好方法。如果我对逻辑分布中两个样本的总体均值差异感兴趣,我最好使用样本均值以外的其他东西作为检验的基础(实际上是 Wilcoxon-Mann-Whitney 检验——用作测试人口平均值的变化——在这种情况下将是一个很好的选择)。
总结:让我们通过回到标题问题来开始总结。
当总体分布不正常时,参数检验的推论是否有效?
当然可以。考虑参数检验的有效性与我们是否处理正态性无关。
即使平均值根本不接近中位数或众数,平均值也可以是一个完全合理的人口数量来做出假设。
参数检验不一定是关于均值的。例如,它可能与人口最小值、人口中位数、人口四分位距或其他任何数量有关。参数检验也不一定与正态性相关(如均匀分布上限的检验或移位指数中的移位参数)
我们必须注意不要将我们感兴趣的人口数量与我们用来推断它们的样本数量混为一谈。有时使用等效样本来估计人口数量是好的,有时则不是——而且它并不总是直观的。对于(右偏)指数分布,使用样本均值推断总体均值效果很好。具有对称的、钟形的、不是很重的分布,比如逻辑(你可能认为在直方图中看起来很正常的分布),不是那么多。如果是拉普拉斯,那就更不用说了。
在查看要测试什么以及如何测试它时,我认为可以归结为回答两个主要问题——
您有兴趣回答关于人口的哪些问题?(这种考虑不一定与分布形状有很大关系。)
鉴于您对分布的了解/假设(或不知道/不会假设),回答这个问题的好方法是什么?(这里出现了测试的效率和稳健性问题,并且在可能的分布形状可能是核心考虑因素)
这取决于非正态性的程度和类型。即使样本量相对较小,测试对于偏态分布也是保守的,但不是严格“有效”,因为实际 p 低于标称 p(如果您使用 p=0.05 作为截止值,您将拒绝小于 0.05 的真实零假设如果您的浏览器允许您运行未签名的小程序,您可以在此处自行探索:http: //onlinestatbook.com/stat_sim/robustness/index.html
其他与正态性的偏差(例如峰度)可能会产生不同的影响。