我对类内相关系数和单向方差分析有点困惑。据我了解,两者都告诉你一个组内的观察与其他组的观察有多么相似。
有人可以更好地解释这一点,或者解释每种方法更有利的情况吗?
我对类内相关系数和单向方差分析有点困惑。据我了解,两者都告诉你一个组内的观察与其他组的观察有多么相似。
有人可以更好地解释这一点,或者解释每种方法更有利的情况吗?
两种方法都依赖于相同的想法,即将观察到的方差分解为不同的部分或组件。但是,我们是否将项目和/或评分者视为固定效应或随机效应存在细微差别。除了说明总变异性的哪一部分由组间因子解释(或组间方差与残差方差相差多少)之外,F 检验并没有说明太多。至少这适用于我们假设固定效应的单向方差分析(并且对应于下面描述的 ICC(1,1))。另一方面,在评估几个“可交换”评级者的评级可靠性或分析单位之间的同质性时,ICC 提供了一个有界指数。
我们通常对不同类型的 ICC 进行以下区分。这源于 Shrout 和 Fleiss (1979) 的开创性工作:
这对应于表 1 中的案例 1 到 3。根据我们是否认为观察到的评级是几个评级的平均值(它们被称为 ICC(1,k)、ICC(2,k)、和 ICC(3,k)) 与否。
总之,您必须选择正确的模型(单向与双向),这在 Shrout 和 Fleiss 的论文中进行了大量讨论。单向模型倾向于产生比双向模型更小的值;同样,随机效应模型产生的值通常低于固定效应模型。从固定效应模型派生的 ICC 被认为是评估评估者一致性的一种方式(因为我们忽略了评估者方差),而对于随机效应模型,我们谈论评估者一致性的估计(评估者是否可以互换)。只有双向模型包含评估者 x 主题交互,这在试图解开非典型评级模式时可能会很有趣。
下图很容易复制/粘贴psychICC()
包中的示例(数据来自 Shrout 和 Fleiss,1979)。数据由 4 名评委 (J) 评估 6 个受试者或目标 (S) 组成,总结如下(我假设它存储为名为 的 R 矩阵)sf
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
这个例子很有趣,因为它显示了模型的选择如何影响结果,从而解释了可靠性研究。所有 6 种 ICC 模型如下(这是 Shrout 和 Fleiss 论文中的表 4)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
可以看出,将评估者视为固定效应(因此不试图推广到更广泛的评估者池)将为测量的同质性产生更高的值。(使用irr包 ( )可以获得类似的结果icc()
,尽管我们必须使用不同的模型类型和分析单元选项。)
ANOVA 方法告诉我们什么?我们需要拟合两个模型来获得相关的均方:
无需查看 F 检验,此处仅对 MS 感兴趣。
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
现在,我们可以在一个扩展的 ANOVA 表中组装不同的部分,如下所示(这是 Shrout 和 Fleiss 论文中的表 3):
(来源:mathurl.com)
其中前两行来自单向模型,而接下来的两行来自双向方差分析。
很容易检查 Shrout 和 Fleiss 文章中的所有公式,并且我们拥有估计单个评估的可靠性所需的一切。多重评估平均值的可靠性如何(通常是评估者间研究中感兴趣的数量)?按照 Hays 和 Revicki (2005),只需改变分母中考虑的总 MS,就可以从上述分解中获得,除了双向随机效应模型,我们必须重写 MS 的比率。
同样,我们发现将评分者视为固定效应时,整体可靠性更高。