正态性假设的相关性、检查方法和阅读非统计学家的建议

机器算法验证 参考 正态假设
2022-03-27 09:03:50

我开始阅读现代稳健方法的主题,查阅各种统计资料,并在 CV 论坛上进行了一些研究。我最终对正常假设的相关性感到相当困惑。

虽然一些作者指出,在某些情况下,即使是与正态性的微小偏差也会在使用经典参数测试时引起重大问题,但其他人则认为正态性假设并不那么重要。

关于如何检查(如果有的话)正态性假设的建议差异很大。对于像我这样以教科书为基础来分析研究数据的非统计学家来说,很难找到在该领域被广泛接受的可靠资源和程序。

任何人都可以推荐有关当前建议的有用且可访问的信息的来源吗?

编辑

更多背景知识:我的研究是在心理学领域,就我而言,这通常需要t检验、ANOVAS(通常是双向)或回归。我经常会遇到分布偏斜的问题(例如,在某些群体中,许多人选择或获得了最高值之一——这在内容方面甚至是有意义的,但仍然违反了正态性假设)。我发现在很多情况下,偏斜的数据很难“纠正”(因为偏斜非常极端,或者因为组的偏斜不同,所以转换并没有解决一些问题,甚至导致了新问题)。这就是为什么我开始寻找替代方案并遇到现代稳健方法(例如稳健的双向 ANOVA,R 的 WRS2 包)。

2个回答

您感到困惑是对的,因为这确实是一个令人困惑的问题。

恐怕很难在一个参考文献中找到所有值得了解的信息,但有些人可能会告诉你——我不会环顾四周,而是告诉你我的想法。

(这个答案更多的是关于背景,如何考虑一般的模型假设;我已经写了另一个答案,其中包含一些更实用的提示。)

  1. 模型是理想化的,它们在实践中永远不会精确地成立,因此我们会定期将方法应用于方法的模型假设或多或少明显违反的数据。

  2. 对某种方法有一个模型假设并不意味着必须满足该假设才能使该方法有意义。这仅意味着如果模型假设得到满足,则理论上可以保证该方法可以执行其应做的事情(这些保证并不总是相同的,并且可能更强或更弱)。这里的棘手问题是,如果模型假设被违反,显然没有理论保证;事实上,我们的分析既可能是好的,也可能是误导性的,很难区分这两种可能性。

  3. 许多统计数据是渐近正态分布的,即使由于中心极限定理(CLT;它本身有可能违反的假设,但见上文),基础数据不正常。这意味着,如果您的样本量很大,则与正态性的许多偏差不会有问题,因为假设正态性的结果将大致成立。

  4. 第 3 项有一个问题,即它取决于未知的真实基础分布,实际需要多大的样本量才能使结果令人满意地正常(也取决于您到底做了什么,因为 CLT 不适用于一切;但它确实适用于算术平均值,许多统计数据都基于该平均值)。

  5. 关键问题不是数据是否正常,甚至不是数据是否近似正常,而是是否以误导结论的方式违反了正常性。事实上,一些微小的违反正态性(单个总异常值)可能是有害的,而像均匀分布这样看起来非常明显非正态的分布通常不会导致基于正态假设的推理问题。

  6. 根据您的具体操作,在大多数情况下,以下问题最成问题:极端异常值(观察到某些地方有问题或与其他观察结果存在本质上的不同,或者通常存在严重的分布尾部)和强烈的偏度。另一方面,如果没有重尾,基于正态性的推理通常是无害的,例如对于离散的 5 点(或其他)李克特尺度数据(只能取值 -2、-1、0、1 的数据) ,2,因此几乎可以保证没有异常值)。

  7. 在许多情况下,其他违反模型假设的行为(例如依赖性)比非正态性更为关键。特别是,CLT 需要独立同分布的数据或一些不太弱的替代假设。我曾经读过一次(我认为是在 Hampel 等人的关于稳健统计的书中),许多高质量的天文数据集都是重尾的,并且由于长期依赖,其中一些看起来比它们应该的更正常- 并且为了减少正态性和减少依赖性会更好。

我将写第二个更实用的答案。第一个是在更抽象的层面上理解模型假设的相关性(或有限的相关性)。所以这里有一些提示。

  1. 使用一些关于您的数据的先验知识:值范围是否有限,您通常会期望数据经常出现在或接近两个极端吗?在这种情况下,由正常假设理论支持的方法通常会很好。(例如,大多数李克特量表数据或自然范围介于 0 和 1 之间的数据就是这种情况,除非有理由预期几乎所有数据都在一侧。)

  2. 数据中异常值的潜在原因是什么?你能以某种方式追踪异常值并检查它们是否实际上是错误的吗?在这种情况下,建议是删除此类观察。(我不建议通常删除异常值,因为它们可能是相关且有意义的,但如果它们实际上是错误的,请删除它们!)通常,在可能的情况下提高数据质量总是值得的,即使存在可以处理的稳健方法一些问题。

  3. 查看您的数据,看看是否存在异常值或极端偏度。重要提示:不要太挑剔!从技术上讲,根据数据本身有条件地决定使用什么测试(或其他方法)将使方法背后的理论无效。我在第一个答案中写道,无论如何模型假设永远不会完全满足,因此有人可以争辩说,在一定程度上可以容忍有条件地根据数据的外观做出决策(更好地使理论“有点”无效而不是做一些非常不合适的东西),但是有过度这样做的趋势,我通常会说你做的越少越好(我的意思是更少依赖数据的决策,而不是更少查看数据!)。因此,请务必查看您的数据并正确了解正在发生的事情,数据中确实有很强的迹象表明这会出错。

  4. 您可以通过模拟 100 个感兴趣大小的正常数据集并查看它们来更好地了解这些东西。这将向您展示如果正常假设确实成立,可能会有多少变化。如果您的数据看起来非常不正常,您还可以(尽管这更复杂)从在某种程度上看起来像您的数据的偏态分布中模拟许多数据集,或者添加异常值的正常数据,或者统一或其他,计算您要执行的测试,并检查其性能(I 型和 II 型错误)是否仍然正常,或查看测试统计量的分布。这样的事情会导致一些工作,但会让您更好地了解在这种情况下会发生什么。

  5. 如果您有无法确定为错误的异常值,并且数据看起来很好,那么标准的稳健方法应该可以。有一种观点认为,你真的应该始终使用稳健的方法,因为即使模型假设得到满足,它们也几乎没有什么害处。我不完全同意这一点,因为尽管在数据真正正常的情况下它们不会损失太多,但在不满足正常但 CLT 近似值很好的情况下,它们的质量损失可能更大,例如统一数据或离散数据(特别是如果对单个值有很大比例的观察,这可能不利于稳健的方法)。

  6. 正如您自己已经指出的那样,转换通常是偏斜数据的好工具,但是如果您比较组并且不同组具有不同类型的偏斜,它可能无济于事。在这种情况下,一件重要的事情是你需要清楚你想要比较的究竟是什么。t 检验和标准 ANOVA 比较均值。尽管存在偏度(如果偏度不太极端),但在这种情况下,它们的表现可能还不错,但更棘手的问题是组均值是否以适当的方式表示组的位置。在正态分布中,均值、中位数和众数是相同的,而对于偏态分布则不是这样。平均值可能过于依赖极端观察。稳健的方差分析可能会有所帮助,但也有一些微妙之处。特别是如果您比较具有相反偏斜的两组,稳健的方法可能会降低一组中的大观察值和另一组中的小观察值,这不公平(这取决于您使用的确切方法)。使用秩和,如 Kruskal-Wallis 检验所做的那样,可能更合适,但是如果不正常,它的理论也假设所有组中的分布形状相同(否则它可能仍然表现得相当好;只要秩和是一个好的要比较的组的相对位置的摘要,我认为这很好)。如果您的分布以不同的方式分布,即在某些区域,一组往往得分更高,而在其他区域另一组(最简单的情况是,如果一组的均值略小,方差小得多,这意味着另一组组具有最高和最低的观察值),

  7. 无论您的结果是什么,之后再查看数据并尝试了解数据如何导致特定结果,同时了解所涉及的统计数据。如果结果与您的直觉不同,结果应该是什么(从数据的样子来看——我不是指这里的主题知识,因为希望您不想让结果偏向于对主题的期望),要么结果或您的直觉具有误导性,您可以学到一些东西(并且可能使用不同的方法,以防您的情节表明该方法做了不恰当的事情)。

  8. 一条评论暗示了明确需要其他假设而不是正态性的方法。显然,如果数据属于那种类型,这很好,但是类似的讨论适用于他们的假设。

  9. 不要忽视其他考虑正态性的模型假设。依赖往往是一个更大的问题。使用有关如何获得数据的知识来问自己是否可能存在依赖性问题(如果这是一个问题,请考虑实验设计或数据收集条件;一个明显的问题可能是来自同一个人的多个观察结果)。如果有意义,则根据观察顺序绘制残差;还针对可能导致依赖的其他条件(地理位置等)。我通常不太关心适度不同的方差,但是如果方差有很大差异,则可能值得不使用假设它们相同的方法,而是将数据可视化并给出更详细的描述,见上文。