机器算法验证 - 一个人可以只使用 Cohen 的 Kappa 进行两个判断吗？ - 吾爱随笔录

我正在使用Cohen 的 Kappa来计算两位法官之间的相互协议。

计算如下：

$\frac{P(A) - P(E)}{1 - P(E)}$

其中是一致的比例，是偶然一致的概率。 $P(A)$ $P(E)$

现在对于以下数据集，我得到了预期的结果：

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

我们可以看到，两位法官的意见都不是很好。但是，在以下两个法官都评估一个标准的情况下，kappa 评估为零：

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

现在我可以看到，偶然的协议显然是1，这导致kappa为零，但这算作可靠的结果吗？问题是每个标准我通常不会有超过两个判断，所以这些都不会评估任何大于 0 的 kappa，我认为这不是很有代表性。

我的计算是否正确？我可以使用不同的方法来计算协议间吗？

在这里我们可以看到 kappa 可以很好地进行多种判断：

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996