机器算法验证 - 如何解释方差分析中的 F 值和 p 值？ - 吾爱随笔录

如何解释方差分析中的 F 值和 p 值？

机器算法验证 r 方差分析解释

2022-02-02 11:57:45

我是统计新手，目前正在处理 ANOVA。我在 R 中使用 ANOVA 测试

aov(dependendVar ~ IndependendVar)

我得到了——除其他外——一个 F 值和一个 p 值。

我的零假设（ $H_0$ ) 是所有组均值相等。

有很多关于如何计算 F的信息，但我不知道如何读取 F 统计量以及 F 和 p 是如何连接的。

所以，我的问题是：

如何确定拒绝的临界 F 值 $H_0$ ?
每个 F 是否都有对应的 p 值，所以它们的含义基本相同？（例如，如果 $p<0.05$ ，然后 $H_0$ 被拒绝）

3个回答

F 统计量是数据的 2 种不同方差度量的比率。如果原假设为真，那么这些都是对同一事物的估计，并且比率将在 1 左右。

分子是通过测量均值的方差来计算的，如果组的真实均值相同，则这是数据整体方差的函数。但是，如果原假设为假且均值不均等，则此方差度量会更大。

分母是每个组的样本方差的平均值，它是总体总体方差的估计值（假设所有组的方差相等）。

因此，当所有均值的 null 为真时，两个度量（带有一些额外的自由度项）将相似，并且比率将接近 1。如果 null 为假，则分子相对于分母和比率将大于 1。在 F 表上查找这个比率（或使用 R 中的 pf 之类的函数计算它）将给出 p 值。

如果您更愿意使用拒绝域而不是 p 值，那么您可以使用 F 表或 R（或其他软件）中的 qf 函数。F 分布有 2 种自由度。分子自由度基于您要比较的组数（对于 1-way，它是组数减 1），分母自由度基于组内的观察数（对于 1-方式是观察数减去组数）。对于更复杂的模型，自由度会变得更复杂，但遵循类似的想法。

思考两者关系的最佳方式 $F$ , $p$ ，临界值有图：

在此处输入图像描述

这里的曲线是 $F$ 分布，即分布 $F$ 我们会看到零假设是否为真的统计数据。在该图中，观察到的 $F$ 统计量是黑色虚线到垂直轴的距离。这 $p$ 值是曲线下的深蓝色区域 $F$ 到无穷远。请注意，每个值 $F$ 必须对应一个唯一的 $p$ 价值，而且更高 $F$ 值对应于较低 $p$ 价值观。

您应该注意到零假设下有关分布的其他几件事：

1) $F$ 接近零的值是极不可能的（这并不总是正确的，但对于本例中的曲线是正确的）

2）在某一点之后，越大 $F$ 是，它的可能性越小。（曲线向右逐渐变细。）

临界值 $C$ 也出现在此图中。曲线下面积从 $C$ 到无穷大等于显着性水平（此处为 5%）。你可以说 $F$ 此处的统计量将导致无法拒绝原假设，因为它小于 $C$ ，也就是说，它的 $p$ 值大于 0.05。在这个具体的例子中， $p=0.175$ ，但你需要一把尺子来手工计算:-)

请注意，形状 $F$ 分布取决于其自由度，对于方差分析，自由度对应于组数（减 1）和观察数（减去组数）。一般来说，整体的“形状” $F$ 曲线由第一个数字决定，其“平坦度”由第二个数字决定。上面的例子有一个 $df_1 = 3$ （4 组），但您会看到该设置 $df_1 = 2$ （3组）导致明显不同的曲线：

在此处输入图像描述

您可以在Mr. Wikipedia Page上查看曲线的其他变体。值得注意的一点是，因为 $F$ 统计量是一个比率，在原假设下，即使有很大的自由度，大数字也不常见。这与 $\chi^2$ 统计量，不除以组数，基本上随着自由度的增加而增长。（除此以外 $\chi^2$ 类似于 $F$ 在某种意义上说 $\chi^2$ 源自正态分布 $z$ 分数，而 $F$ 来源于 $t$ -分散式 $t$ 统计数据。）

这比我要输入的要多得多，但我希望能涵盖您的问题！

（如果您想知道图表的来源，它们是由我的桌面统计软件包Wizard自动生成的。）

要回答您的问题：

您可以从F 分布中找到临界 F 值（这里有一个表格）。看一个例子。您必须注意单向与双向，分子和分母的自由度。
是的。

其它你可能感兴趣的问题

上一篇朴素贝叶斯和多项朴素贝叶斯之间的区别下一篇总体和样本有什么区别？