一个人可以只使用 Cohen 的 Kappa 进行两个判断吗?

机器算法验证 可靠性 信息检索
2022-03-16 00:04:32

我正在使用Cohen 的 Kappa来计算两位法官之间的相互协议。

计算如下:

P(A)P(E)1P(E)

其中是一致的比例,是偶然一致的概率。P(A)P(E)

现在对于以下数据集,我得到了预期的结果:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

我们可以看到,两位法官的意见都不是很好。但是,在以下两个法官都评估一个标准的情况下,kappa 评估为零:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

现在我可以看到,偶然的协议显然是1,这导致kappa为零,但这算作可靠的结果吗?问题是每个标准我通常不会有超过两个判断,所以这些都不会评估任何大于 0 的 kappa,我认为这不是很有代表性。

我的计算是否正确?我可以使用不同的方法来计算协议间吗?

在这里我们可以看到 kappa 可以很好地进行多种判断:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
2个回答

中的“机会校正”估计了每个评估者选择现有类别的概率。估计来自类别的边缘频率。当您对每个评估者只有 1 个判断时,这意味着假设为这个单一判断选择的类别通常具有 1 的概率。这显然没有意义,因为判断的数量 (1) 太少而无法可靠估计所有类别的基本费率。κκ

另一种选择可能是一个简单的二项式模型:如果没有额外的信息,我们可以假设两个评估者就一个判断达成一致的概率为 0.5,因为判断是二元的。这意味着我们隐含地假设两个评分者都以 0.5 的概率为所有标准选择每个类别。然后,在所有标准上偶然预期的协议数量遵循的二项分布。p=0.5

我发现 caracal 的回答令人信服,但我也相信 Cohen 的 Kappa 只能解释构成评价者可靠性的部分内容。协议中评分的简单百分比占另一部分,评分之间的相关性占三分之一。要获得完整的图片,需要所有三种方法。详情请参阅http://pareonline.net/getvn.asp?v=9&n=4

“[...] 将测量者间的可靠性描述为一个单一、统一的概念的一般做法充其量是不精确的,最坏的情况是可能具有误导性。”