文本注释过程,质量与数量?

数据挖掘 机器学习 分类 数据挖掘 nlp 文本挖掘
2022-03-11 08:11:48

我有一个关于为分类注释文本数据的问题。

假设我们有十名志愿者即将将大量文本注释到标签 A 或 B 中。他们可能没有时间浏览所有文本样本,但至少有很大一部分。

  1. 我们是否应该专注于为每个注释器生成新样本?(他们从来没有看到与任何其他注释器相同的文本样本)(数量方法)。
  2. 还是应该所有注释者都看到相同的样本并考虑到注释者协议?(质量方法)。

思想,

  1. 将生成比 2 更多的唯一样本。(分类器的训练样本更多) - 并希望在特征提取部分,有用的特征会自己出现。
  2. 将生成较少的唯一样本,但会考虑注释者协议。(分类器的训练样本更少,但质量更高)
1个回答

这取决于您考虑的上下文。例如,假设有一种情况,所有可能的状态都可以被 10K 不同的文本覆盖。很简单,如果这些文本都被注释了,那么对于 1000 个测试,我们至少可以对其中的 500 个进行真正的分类(因为我们有两个类,每个文本的错误注释概率最多为 0.5)。

现在,假设 10K 文本中的 1K 被注释。然后,由于注释是准确的,我们可以真正对 1000 个文本中的 1/10 进行分类(因为我们不知道其他 9K 可能的状态)。

因此,在这种情况下,数量比质量更重要。

此外,当可能的状态为 1K 时,我们可以考虑这些情况。可以直接表明,在这种情况下(如果注释者的能力与前一种情况相同)质量可能比数量更重要。然而,在大多数情况下,这个数字是不现实的。

总之,在大多数情况下,文本的多样性不仅仅是注释者的力量,我们更喜欢数量而不是质量,因为我们可以覆盖更多的文本空间,机器可以学习更多。虽然准确率可以少一些,但是对于两类分类是可以忽略不计的。