如果两组的 t 检验和 ANOVA 相等,为什么他们的假设不相等?

机器算法验证 分布 回归 正态假设 t检验 方差分析
2022-01-26 08:50:55

我确信我已经完全把它缠在了我的头上,但我就是想不通。

t 检验使用 Z 分布比较两个正态分布。这就是为什么在 DATA 中有正常假设的原因。

ANOVA 等效于带有虚拟变量的线性回归,并且使用平方和,就像 OLS 一样。这就是为什么假设残差是正态的。

我花了几年时间,但我想我终于掌握了这些基本事实。那么为什么 t 检验等同于两组的方差分析呢?如果他们甚至不对数据假设相同的事情,他们怎么可能是等价的?

4个回答

两组的 t 检验假设每组均服从具有相同方差的正态分布(尽管在备择假设下均值可能不同)。这等效于带有虚拟变量的回归,因为回归允许每组的平均值不同,但方差不允许。因此,残差(等于减去组均值的数据)具有相同的分布——也就是说,它们呈正态分布,均值为零。

具有不等方差的 t 检验不等同于单向方差分析。

t 检验只是 F 检验的一个特例,只比较两组。就 p 值而言,两者的结果都将完全相同,并且 F 和 t 统计量之间也存在简单的关系。F = t^2。这两个测试在代数上是等价的,并且它们的假设是相同的。

事实上,这些等价性扩展到整个类的 ANOVA、t 检验和线性回归模型。t 检验是 ANOVA 的一个特例。ANOVA 是回归的一种特殊情况。所有这些程序都包含在一般线性模型下,并共享相同的假设。

  1. 观察的独立性。
  2. 残差的正态性=特殊情况下每组的正态性。
  3. 在特殊情况下,残差方差相等 = 组间方差相等。

您可能将其视为数据中的正态性,但您正在检查每个组中的正态性 - 这实际上与在模型中唯一的预测变量是组的指标时检查残差中的正态性相同。同样具有相同的方差。

顺便说一句,R 没有单独的 ANOVA 例程。R 中的 anova 函数只是 lm() 函数的包装器 - 用于拟合线性回归模型的相同东西 - 打包略有不同,以提供通常在 ANOVA 汇总而不是回归汇总中找到的内容。

我完全同意 Rob 的回答,但让我换一种说法(使用维基百科):

假设方差分析

  • 案例的独立性——这是简化统计分析的模型假设。
  • 正态性——残差的分布是正态的。
  • 方差的相等性(或“同质性”),称为同方差

假设 t 检验

  • 被比较的两个群体中的每一个都应该遵循正态分布......
  • ...被比较的两个总体应该具有相同的方差...
  • 用于进行测试的数据应独立于被比较的两个群体进行抽样。

因此,我会反驳这个问题,因为它们显然具有相同的假设(尽管顺序不同:-))。

每个人都忽略了一个明显的点:使用方差分析,您正在测试无论解释变量的值如何,均值相同的空值。使用 T 检验,您还可以测试单方面的情况,即在给定解释变量的一个值的情况下,平均值明显大于给定的另一个值。