我有几组我想比较的 10 位评分者。
每个评分者只能投赞成票或反对票,但是这个决定是有偏差的,赞成票只占所有票数的 10% 左右(这是意料之中的,即这样的比例是客观真实的)。
在这种情况下,哪种评估者间一致性统计数据适合?
我有几组我想比较的 10 位评分者。
每个评分者只能投赞成票或反对票,但是这个决定是有偏差的,赞成票只占所有票数的 10% 左右(这是意料之中的,即这样的比例是客观真实的)。
在这种情况下,哪种评估者间一致性统计数据适合?
由于在您的情况下偏度是一个问题,您可能希望使用 Gwet (2001, 2002) 提出的 AC1 评估者间可靠性统计。参见例如Gwet 2008。相比,它是“更稳健的机会校正统计量,始终产生可靠的结果” 。
统计可能是有问题的,因为“它受到类别的偏态分布(普遍性问题)和编码人员不同意的程度(偏差问题)的影响”(DiEugenio & Glass,2004 年)。或者正如 Feinstein 和 Cicchetti (1990) 所观察到的:
在显示两个观察者的二元一致性的四重表中,观察到的一致性比例 P0 可以通过创建作为一致性指数的机会校正比率而自相矛盾地改变。在一个悖论中,P0 的高值可能会因表格的边际总数在垂直或水平上的显着不平衡而大幅降低。在第二个悖论中,(原文如此)将更高,边际总量中存在不对称而不是对称不平衡,并且不平衡中存在不完美而不是完美对称。用 Kmax 代替的调整不能修复任何一个问题,而且似乎会使第二个问题变得更糟。
(重点补充)
参考:
DiEugenio、芭芭拉和格拉斯、迈克尔 (2004)。kappa 统计:再看一遍。计算语言学 30(1)。
Feinstein, Alvan R. & Cicchetti, Domenic V. (1990)。高一致性但低 kappa:I. 两个悖论的问题。临床流行病学杂志 43(6):543-549。
Gwet,Kilem(2001 年)。评分者间可靠性手册:如何估计两个或多个评分者之间的一致程度。Gaithersburg, MD, STATAXIS Publishing Company
Gwet, Kilem (2002)。评估者间可靠性:对特征流行度和边际同质性的依赖。评估者间可靠性评估的统计方法 2。
当高度倾斜的评估者同意时,一个低的衡量标准实际上是非常可取的。Gwet 的 AC1 特别假设机会一致性最多应为 50%,但如果两个评估者在 90% 的时间里都投票 +ve,Cohen 和 Fleiss/Scott 表示,对于一个概率,概率一致性是 81% 的正面和 1% 的负面总计 82% 的预期准确率。
这正是需要消除的偏见。列联表
81 9
9 1
代表机会水平的表现。Fleiss 和 Cohen Kappa 和 Correlation 为 0,但 AC1 是误导性的 89%。我们当然会看到 82% 的准确率,也看到 90% 的召回率和精度以及 F-measue,如果我们以这些术语考虑它们......
考虑两个评估者,其中一个是语言学家,他给出了高度可靠的词性评级 - 名词与动词 say,另一个不知道一个计算机程序,它是如此绝望,只能猜测。
由于水在 90% 的情况下是名词,因此语言学家在 90% 的情况下说名词,在 10% 的情况下说动词。
一种形式的猜测是用它们最频繁的词性标记单词,另一种是根据频率给定的概率猜测不同的词性。后一种“患病率偏向”方法将被所有 Kappa 和相关性度量以及 DeltaP、DeltaP'、知情度和标记性(它们是提供一个方向预测信息的回归系数,其几何平均值是 Matthews相关性)。它对应于上表。
“最频繁”的词性随机标注器给出了 100 个单词的下表:
90 10
0 0
也就是说,它正确预测了语言学家的所有 90 个名词,但没有正确预测 10 个动词。
所有的 Kappas 和 Correlations 以及 Informedness 都给出了 0,但 AC1 给出了误导性的 81%。
知情度是给出标注者做出知情决定的概率,即它做出知情决定的时间比例,并正确返回否。
另一方面,Markedness 正在估计语言学家正确标记单词的时间比例,它低估了 40%。如果我们从程序的准确率和召回率方面考虑这一点,我们的准确率为 90%(我们得到 10% 的错误是动词),但由于我们只考虑名词,所以我们的召回率为 100%(我们得到所有这些,因为计算机总是猜测名词)。但是 Inverse Recall 为 0,并且 Inverse Precision 未定义,因为计算机没有做出 -ve 预测(考虑动词是 +ve 类的逆问题,因此计算机并不总是将 -ve 预测为更普遍的类)。
在二分法的情况下(两个类),我们有
Informedness = Recall + Inverse Recall - 1. Markedness = Precision + Inverse Precision - 1. Correlation = GeoMean (Informedness, Markedness)。
简短的回答 - 当评估者之间没有任何选择时,相关性是最好的,否则是知情的。如果您想使用 Kappa 并认为两个评估者应该具有相同的分布,请使用 Fleiss,但通常您会希望允许他们拥有自己的量表并使用 Cohen。我不知道 AC1 会给出更合适答案的任何示例,但总的来说,不直观的结果是由于两个评估者的班级选择的偏见/流行度之间的不匹配而出现的。当bias=prevalence=0.5 时,所有的措施都同意,当措施不同意时,是你的假设决定了什么是合适的,我给出的指导方针反映了相应的假设。
这个水的例子起源于...
Jim Entwisle 和 David MW Powers (1998),“The Present Use of Statistics in the Evaluation of NLP Parsers”,pp215-224,NeMLaP3/CoNLL98 联合会议,悉尼,1998 年 1 月。 - 应为所有博彩公司理论/历史目的引用. http://david.wardpowers.info/Research/AI/papers/199801a-CoNLL-USE.pdf http://dl.dropbox.com/u/27743223/199801a-CoNLL-USE.pdf
Informedness 和 Markedness 与 Kappa 在...中进行了解释
大卫 MW 鲍尔斯 (2012)。“Kappa 的问题”。计算语言学协会欧洲分会会议 (EACL2012) 联合 ROBUS-UNSUP 研讨会。- 引用在 NLP/CL 上下文中使用 Informedness 或 Kappa 的工作。 http://aclweb.org/anthology-new/E/E12/E12-1035.pdf http://dl.dropbox.com/u/27743223/201209-eacl2012-Kappa.pdf
我认为他们中的大多数人测试一致性与不一致,因此他们强调评估者同意的程度,因此他们倾向于在 10% 的时间内投票赞成这一事实并不是一个因素。样本量可能是因为如果样本量很小,您将不会有很多赞成在选民之间进行比较。这对于任何协议测试都是一个问题。因此,如果您负担得起,请决定您希望平均每个选民获得多少赞成票。如果是 50,则取 500 个样本进行评级。当然,Kappa 统计数据与大多数其他统计数据一样适用于此。