ANOVA 回答了什么问题?

机器算法验证 方差分析
2022-03-04 02:07:34

我想学习方差分析。在我开始学习算法是如何工作的(必须进行哪些计算)以及它为什么工作之前,我首先想知道我们用 ANOVA 实际解决了什么问题,或者我们试图回答什么答案。换句话说:算法的输入和输出是什么?

我确实了解我们用作输入的内容。我们有一组数字。每个数字都带有一个或多个分类变量(也称为“因子”)的值。例如:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

是否可以说 ANOVA 计算零假设的 p 值,表明这些因素对值的平均值没有影响?换句话说,我们将上述给定数据提供给算法,结果我们得到原假设的 p 值?

如果是这种情况,我们实际使用什么度量来计算 p 值。例如,我们可以说,在 1% 的情况下,假设零假设 M 可能与观察到的假设一样高(甚至更高)。什么是M?

我们不是也单独研究方差分析中的因素吗?ANOVA 可以说 factor_1 有影响但 factor_2 没有?ANOVA 可以说,对于对应于值“A”、“B”和“C”的给定因子值在统计上无法区分(例如,具有相同的均值)但值“D”有影响吗?

1个回答

ANOVA 代表“方差分析”。毫不奇怪,它分析了方差。

让我们更明确一点。您的观察结果会出现一些差异。如果您按因子 1 对观察结果进行分组,则因子 1 定义的组内的方差将小于总体方差。因素 1“解释方差”。

但是,这还不足以断定因素 1 实际上确实与您的观察结果有关系……因为按任何东西分组都会“解释”方差。好消息是我们知道在您的因子确实与您的观察无关的零假设下将解释多少方差。在零值下解释的这种方差量由分布描述。F

因此,ANOVA 中的策略是估计总体方差和组内方差(使用平方和)并取这些估计方差的比率。这个比率是统计量。然后,我们将此统计量与单边测试中分布的临界值进行值。因子水平的数量进入分布的一个参数(在原假设下,更多的因子水平将解释更多的方差),而观察的数量和水平的数量进入另一个参数。这个较早的问题可能会有所帮助。FFFpF

(为什么要进行单边测试?因为如上所述,任何分组都会解释一些方差,因此只有检查您的因素是否解释了显着大量的方差才有意义。)

Wikipedia 条目的“激励示例”部分提供了一些非常好的说明因素,这些因素解释了很少、一些和很多整体差异。

双向 ANOVA 和交互,如您的示例,以及 ANCOVA,只是对这个主题的概括。在每种情况下,我们都会调查添加一些解释变量是否可以解释大量的方差。

一旦我们进行了显着的整体检验,我们就可以检查某些因素水平的观察结果是否与事后检验中的其他因素显着不同例如,D 可能与 A、B 和 C 不同,但它们之间可能没有显着差异。您通常会为此使用检验。这个早先的问题和这个问题一样可能有用Ft