我正在使用Cohen 的 Kappa来计算两位法官之间的相互协议。
计算如下:
其中是一致的比例,是偶然一致的概率。
现在对于以下数据集,我得到了预期的结果:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
我们可以看到,两位法官的意见都不是很好。但是,在以下两个法官都评估一个标准的情况下,kappa 评估为零:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
现在我可以看到,偶然的协议显然是1,这导致kappa为零,但这算作可靠的结果吗?问题是每个标准我通常不会有超过两个判断,所以这些都不会评估任何大于 0 的 kappa,我认为这不是很有代表性。
我的计算是否正确?我可以使用不同的方法来计算协议间吗?
在这里我们可以看到 kappa 可以很好地进行多种判断:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996