ANOVA 中的错误表明什么?

机器算法验证 假设检验 统计学意义 方差分析 数理统计 错误
2022-03-17 06:04:28

当我遇到ANOVA时,讲师谈​​到了df(Error),ss(Error)等。这些错误术语表示什么?具有因变量和自变量的双向 ANOVA 的误差项是否不同?

在此处输入图像描述

2个回答

许多模型都基于“总体均值 + 均值变化”形式的因变量模型。事实上,t 检验、单向和双向 ANOVA、多元回归都是这样的例子。

在具有交互作用的双向 ANOVA 的情况下,模型(用最简单的术语来说)如下所示:

yijk=μij+εijk,

- 即“行”因子的第i级和“列”因子(IV)的第j级的第k个值由ij的组合的总体平均值以及关于该平均值的个体变异组成(因为因子组合i,j中的第k个观察值 将不等于该子组的总体平均值)。ijijki,j

通常,我们将双向 ANOVA 的平均值分解为主效应和交互作用:μij=μ+αi+βj+(αβ)ij,给出:

yijk=μ+αi+βj+(αβ)ij+εijk,

因此观察由总体(总体)平均效应,加上(总体)“行”效应(表示由于行因子导致的总体平均值的偏差),相应的“列”效应和交互效应(附加特定因素组合的偏差)和与平均值的个体差异。

回到之前的形式:关于总体平均值在因子水平的个体变化被假设为一个零均值、恒定方差随机项,称为“误差项”。yijk=μij+εijk,ij

它不一定包含通常意义上的实际错误;部分原因是历史原因。这只是对观察结果与总体细胞均值的不同方式的描述。该误差项是模型的重要组成部分。但是,它可能包括我们通常认为是错误的东西(例如 DV 中的测量错误)。[顺便说一下,在通常的回归和方差分析中,假设 IV 的测量没有错误。对于 ANOVA 中的因素,这通常不是问题,尤其是在涉及实验的情况下。]

在正态理论推断(通常的置信区间和假设检验)中,假设误差项是正态分布的。


现在,为什么我们有等等?SS(error)df(error)

关于总体均值 ( )的方差分解为可解释为单元均值关于总体均值的变化(关于的变化)和关于单元均值的随机变化(无法解释数据的可变性)。第一个进一步分解为行效应、列效应和交互作用的方差项。yμμijμ

现在,如果在总体水平上确实没有行、列或交互效应,那么行、列和交互的那些方差将由于总体均值的变化而非零——它们将相对较小,并且典型的大小是误差项方差的函数(),我们甚至可以计算出 y 方差的这些分量的估计应该是什么分布。但是,如果存在真正的行、列和交互效应,则 y 方差的这些分量通常会更大并且具有不同的分布。var(ε)=σ2

因此,为了研究 ANOVA 中效应的大小(例如交互效应),我们比较了的隐含值的大小与来自拟合模型的残差值的大小(一种直接估计 ) 的方法。如果效应为零,这两个方差估计值(F 统计量)的比率将(或多或少)接近 1,否则往往会更大。σ2var(ϵ)

我们进行 F 检验以查看该比率是否大于随机变化可以合理解释的范围(没有实际效果——没有交互作用)。如果是,我们将拒绝特定效应为零的零假设。

这种计算——使用方差估计的比率来确定与单元均值相关的效应是否大于零——称为方差分析

因此,像这样的术语对于确定是否有证据表明我们正在研究的 (IV) 因素确实改变了因变量的平均值是至关重要的。SS(error)df(error)

我只是想为@Glen_b 的好答案 (+1) 添加一些信息。也许,OP知道这一点,但我仍然会尽我所知/理解稍微澄清一下术语。

SS(error)表示误差(残差)平方和,通常称为因此,表示error的自由度我认为它与回归自由度不同。我的理解也是,这个术语通常不同于作为概率分布参数的自由度。此外,注意有效自由度的存在(回归和误差/残差)可能很有用。SSEdf(error)