我有一个关于为分类注释文本数据的问题。
假设我们有十名志愿者即将将大量文本注释到标签 A 或 B 中。他们可能没有时间浏览所有文本样本,但至少有很大一部分。
- 我们是否应该专注于为每个注释器生成新样本?(他们从来没有看到与任何其他注释器相同的文本样本)(数量方法)。
- 还是应该所有注释者都看到相同的样本并考虑到注释者协议?(质量方法)。
思想,
- 将生成比 2 更多的唯一样本。(分类器的训练样本更多) - 并希望在特征提取部分,有用的特征会自己出现。
- 将生成较少的唯一样本,但会考虑注释者协议。(分类器的训练样本更少,但质量更高)