我不知道为什么测试方差同质性如此重要。需要方差同质性的例子有哪些?
为什么方差同质性如此重要?
@variant,你问这个问题已经有一年了,我假设你希望通过你正在学习的任何考试或通过你的统计课程。方差齐性是方差分析和大多数统计检验的标准假设。它通常在大多数统计课程中被快速触及。大多数人不了解他们的教授在说什么,坦率地说,大多数教授也没有最好的处理方法。方差齐性 (HOV) 有一段历史,如果您想了解统计数据,了解这段历史通常会有所帮助。
方差,作为一个术语,最初是由费舍尔在 1918 年创造的。(希望你已经对方差有很好的理解)费舍尔感兴趣的是将生物体之间的差异分解为它们的遗传和环境影响。你知道,人是先天与后天的结合。费舍尔还认为大多数自然现象是正态分布的——或者呈钟形曲线形状。
费舍尔之前是皮尔逊和高尔顿,他们对费舍尔影响很大。正态分布在统计学中有一段有趣的历史,高尔顿发现它几乎是神奇的。高尔顿使用一种名为 Quincunx 的设备探索了正态分布。在 MathisFun 网站上有一个高尔顿设备的精彩演示。基本上,它是一块钉有钉子的木板。指甲呈三角形排列。高尔顿将一连串的豆子或弹珠扔在三角形的顶部,看着它们叮叮当当地从钉子里发出叮当声,直到它们到达底部。他观察到的是,这些物体会以正态(ish)分布模式排列在底部。
现在假设您正在使用高尔顿的游戏,并用 1000 个弹珠重复上述实验。然后测量这 1000 个弹珠的均值和方差。你把它写下来。然后你用相同的弹珠重复你的实验,但首先你只使用 750 个弹珠(写下 750 个弹珠的平均值和方差),然后清空游戏,然后使用剩余的 250 个弹珠(再次写下250 颗弹珠)。
如果将 750 个弹珠的方差与 250 个弹珠的方差相加,您将得到原始 1000 个弹珠分布的精确方差(或多或少)。
现在,重复上述实验,但这一次,想象在最后 250 个弹珠试验中,您稍微倾斜游戏,使一侧高于另一侧。这将导致弹珠稍微偏离中心,并在游戏的一侧收集更多而不是另一侧。如果计算这个偏斜样本的均值和方差,并将其添加到非偏斜的 750 大理石样本中,您会发现它不再正确地添加到原始的 1000 大理石总体方差中。
这是因为您的 250 样本是偏斜的,并且与 750 大理石样本的分布不同。此外,当样本偏斜时,均值可能不再是集中趋势的最佳度量,方差依赖于均值。
ANOVA 是一般线性统计模型的一个特例。它是线性的,因为你正在添加东西。它假设您添加的那些东西的分布是相同的。如果不是,那么您的结论或估计可能是错误的或有偏见的。
这就是为什么 HOV 很重要。希望这可以帮助。
当我们进行 ANOVA 检验时,我们会检查零假设的合理性,这是我们最终可能会拒绝的稻草人假设。在这个假设下,我们不仅假设所有组均值相等,而且我们有一定的数据生成过程。这是一个过程,其中 1)我们的观察结果是从总体中随机抽取的;2)实际上并不存在多个组:所有观察结果都来自同一个基础组,具有相同程度的可变性。
如果从形状上看,我们的数据显然不像来自这样的数据生成过程,那么暂时采用和评估这种假设的用处就会失效。如果组之间的变异性完全不同,则基于零假设下某些结果发生的概率计算的p值不再准确。如果不同组的数据生成过程明显不同,那么在评估所获得的均值差异为零的情况下发生的概率有什么意义,有什么有效性?我们面临的情况与这种空值所描述的情况没有任何相似之处。
好消息是双重的。首先,您会看到作者在面对违反假设时经常提到 ANOVA 的稳健性 - 请注意,不是随机抽样假设,而是方差同质性和组内正态分布的假设。其次,像 Harwell 这样足智多谋的研究人员已经从许多蒙特卡罗模拟中收集到一些有用的指导,以便在面对此类违规行为时进行调整。
哈威尔,M.(2003 年)。总结蒙特卡罗方法研究的结果:单因素、固定效应 ANCOVA 案例。教育和行为统计杂志,28:1, 45-70。
在回归模型中,残差相对于估计值的方差同质性(称为同方差)是线性回归的一个关键基本假设。如果此类残差不被视为同方差而是异方差(观察值的方差发生变化而不是保持大致恒定),则计算的自变量的统计显着性无效(t stat 和 P 值不准确)。因此,您对自变量的整个选择都是有问题的。
因此,您必须使用 Breusch-Pagan 检验或 White 检验来检验这些残差是同方差的还是异方差的。
如果它们是异方差的,则必须计算 White 标准误差(针对异方差调整的回归系数的稳健标准误差)。现在,使用这些稳健的标准误差,您可以重新计算这些回归系数的统计显着性(p 值)。
另一种选择是使用加权最小二乘回归 (WLS) 重新运行多元回归模型,这将解决异方差问题。
据我所知,计算稳健标准误差(White)在某种程度上优于 WLS 回归,因为前者可以保持原始系数和模型的因果意义。对于后者,您不会。您的模型的含义可能会有所改变,并且解释起来要复杂得多。
简而言之,方差的同质性是关键,否则您将不知道您在多元回归模型中选择的自变量是否具有统计显着性。