数据挖掘 - 从注释数据中选择类标签 - 吾爱随笔录

数据挖掘机器学习文本挖掘

2022-03-04 15:10:06

对于社交媒体数据集上的多标签、多类分类，我们从数据集中收集了大约 5000 个样本并对其进行了手动注释。5000 个样本被 3 个人标注，其中 1500 个是相同的帖子。我现在应该如何决定类别标签？

例如，

AnnotatorId  Post  Labels
-------------------------
Annotator1: post1: A,B,C
Annotator2: post1: A,D,E
Annotator3: post1: B,D,E

post1 的标签是否会A,B,D通过多数投票？或者，是否有一些更好的常用方法？

1个回答

这是解决问题的一种有效方法。不过，在您的最终解决方案中，量化整体评分者间的一致性会很有帮助。例如，科恩的 kappa是一个常用的度量：

\begin{array}{rcl} κ & = & \frac{p_{o} - p_{e}}{1 - p_{e}} \\ = & 1 - \frac{1 - p_{o}}{1 - p_{e}}, \end{array}

$\begin{eqnarray} \kappa &=& \frac{p_{o}-p_{e}}{1-p_{e}}\\ &=& 1 - \frac{1-p_{o}}{1-p_{e}}, \end{eqnarray}$ 在哪里

p_{o}

$p_{o}$ 和

p_{e}

$p_{e}$ 分别是您观察到的一致程度和由于偶然性而达成的一致程度。这很重要的原因是，您的人工注释者达到的一致程度是您的机器学习解决方案性能的理论上限——它为解释您的算法方法的性能提供了上下文。

其它你可能感兴趣的问题