如何解释方差分析中的 F 值和 p 值?

机器算法验证 r 方差分析 解释
2022-02-02 11:57:45

我是统计新手,目前正在处理 ANOVA。我在 R 中使用 ANOVA 测试

aov(dependendVar ~ IndependendVar)

我得到了——除其他外——一个 F 值和一个 p 值。

我的零假设(H0) 是所有组均值相等。

有很多关于如何计算 F的信息,但我不知道如何读取 F 统计量以及 F 和 p 是如何连接的。

所以,我的问题是:

  1. 如何确定拒绝的临界 F 值H0?
  2. 每个 F 是否都有对应的 p 值,所以它们的含义基本相同?(例如,如果p<0.05, 然后H0被拒绝)
3个回答

F 统计量是数据的 2 种不同方差度量的比率。如果原假设为真,那么这些都是对同一事物的估计,并且比率将在 1 左右。

分子是通过测量均值的方差来计算的,如果组的真实均值相同,则这是数据整体方差的函数。但是,如果原假设为假且均值不均等,则此方差度量会更大。

分母是每个组的样本方差的平均值,它是总体总体方差的估计值(假设所有组的方差相等)。

因此,当所有均值的 null 为真时,两个度量(带有一些额外的自由度项)将相似,并且比率将接近 1。如果 null 为假,则分子相对于分母和比率将大于 1。在 F 表上查找这个比率(或使用 R 中的 pf 之类的函数计算它)将给出 p 值。

如果您更愿意使用拒绝域而不是 p 值,那么您可以使用 F 表或 R(或其他软件)中的 qf 函数。F 分布有 2 种自由度。分子自由度基于您要比较的组数(对于 1-way,它是组数减 1),分母自由度基于组内的观察数(对于 1-方式是观察数减去组数)。对于更复杂的模型,自由度会变得更复杂,但遵循类似的想法。

思考两者关系的最佳方式F,p,临界值有图:

在此处输入图像描述

这里的曲线是F分布,即分布F我们会看到零假设是否为真的统计数据。在该图中,观察到的F统计量是黑色虚线到垂直轴的距离。p值是曲线下的深蓝色区域F到无穷远。请注意,每个值F必须对应一个唯一的p价值,而且更高F值对应于较低p价值观。

您应该注意到零假设下有关分布的其他几件事:

1)F接近零的值是极不可能的(这并不总是正确的,但对于本例中的曲线是正确的)

2)在某一点之后,越大F是,它的可能性越小。(曲线向右逐渐变细。)

临界值C也出现在此图中。曲线下面积从C到无穷大等于显着性水平(此处为 5%)。你可以说F此处的统计量将导致无法拒绝原假设,因为它小于C,也就是说,它的p值大于 0.05。在这个具体的例子中,p=0.175,但你需要一把尺子来手工计算:-)

请注意,形状F分布取决于其自由度,对于方差分析,自由度对应于组数(减 1)和观察数(减去组数)。一般来说,整体的“形状”F曲线由第一个数字决定,其“平坦度”由第二个数字决定。上面的例子有一个df1=3(4 组),但您会看到该设置df1=2(3组)导致明显不同的曲线:

在此处输入图像描述

您可以在Mr. Wikipedia Page上查看曲线的其他变体值得注意的一点是,因为F统计量是一个比率,在原假设下,即使有很大的自由度,大数字也不常见。这与χ2统计量,不除以组数,基本上随着自由度的增加而增长。(除此以外χ2类似于F在某种意义上说χ2源自正态分布z分数,而F来源于t-分散式t统计数据。)

这比我要输入的要多得多,但我希望能涵盖您的问题!

(如果您想知道图表的来源,它们是由我的桌面统计软件包Wizard自动生成的。)

要回答您的问题:

  1. 您可以从F 分布中找到临界 F 值(这里有一个表格)。一个例子您必须注意单向与双向,分子和分母的自由度。

  2. 是的。