我是统计新手,目前正在处理 ANOVA。我在 R 中使用 ANOVA 测试
aov(dependendVar ~ IndependendVar)
我得到了——除其他外——一个 F 值和一个 p 值。
我的零假设() 是所有组均值相等。
有很多关于如何计算 F的信息,但我不知道如何读取 F 统计量以及 F 和 p 是如何连接的。
所以,我的问题是:
- 如何确定拒绝的临界 F 值?
- 每个 F 是否都有对应的 p 值,所以它们的含义基本相同?(例如,如果, 然后被拒绝)
我是统计新手,目前正在处理 ANOVA。我在 R 中使用 ANOVA 测试
aov(dependendVar ~ IndependendVar)
我得到了——除其他外——一个 F 值和一个 p 值。
我的零假设() 是所有组均值相等。
有很多关于如何计算 F的信息,但我不知道如何读取 F 统计量以及 F 和 p 是如何连接的。
所以,我的问题是:
F 统计量是数据的 2 种不同方差度量的比率。如果原假设为真,那么这些都是对同一事物的估计,并且比率将在 1 左右。
分子是通过测量均值的方差来计算的,如果组的真实均值相同,则这是数据整体方差的函数。但是,如果原假设为假且均值不均等,则此方差度量会更大。
分母是每个组的样本方差的平均值,它是总体总体方差的估计值(假设所有组的方差相等)。
因此,当所有均值的 null 为真时,两个度量(带有一些额外的自由度项)将相似,并且比率将接近 1。如果 null 为假,则分子相对于分母和比率将大于 1。在 F 表上查找这个比率(或使用 R 中的 pf 之类的函数计算它)将给出 p 值。
如果您更愿意使用拒绝域而不是 p 值,那么您可以使用 F 表或 R(或其他软件)中的 qf 函数。F 分布有 2 种自由度。分子自由度基于您要比较的组数(对于 1-way,它是组数减 1),分母自由度基于组内的观察数(对于 1-方式是观察数减去组数)。对于更复杂的模型,自由度会变得更复杂,但遵循类似的想法。
思考两者关系的最佳方式,,临界值有图:
这里的曲线是分布,即分布我们会看到零假设是否为真的统计数据。在该图中,观察到的统计量是黑色虚线到垂直轴的距离。这值是曲线下的深蓝色区域到无穷远。请注意,每个值必须对应一个唯一的价值,而且更高值对应于较低价值观。
您应该注意到零假设下有关分布的其他几件事:
1)接近零的值是极不可能的(这并不总是正确的,但对于本例中的曲线是正确的)
2)在某一点之后,越大是,它的可能性越小。(曲线向右逐渐变细。)
临界值也出现在此图中。曲线下面积从到无穷大等于显着性水平(此处为 5%)。你可以说此处的统计量将导致无法拒绝原假设,因为它小于,也就是说,它的值大于 0.05。在这个具体的例子中,,但你需要一把尺子来手工计算:-)
请注意,形状分布取决于其自由度,对于方差分析,自由度对应于组数(减 1)和观察数(减去组数)。一般来说,整体的“形状”曲线由第一个数字决定,其“平坦度”由第二个数字决定。上面的例子有一个(4 组),但您会看到该设置(3组)导致明显不同的曲线:
您可以在Mr. Wikipedia Page上查看曲线的其他变体。值得注意的一点是,因为统计量是一个比率,在原假设下,即使有很大的自由度,大数字也不常见。这与统计量,不除以组数,基本上随着自由度的增加而增长。(除此以外类似于在某种意义上说源自正态分布分数,而来源于-分散式统计数据。)
这比我要输入的要多得多,但我希望能涵盖您的问题!
(如果您想知道图表的来源,它们是由我的桌面统计软件包Wizard自动生成的。)