如何处理注释错误?

数据挖掘 训练 数据科学模型 注解
2021-10-10 18:38:27

我知道我的注释器并不完美,有时会出错。处理我的训练数据的注释错误的最佳方法是什么?

1个回答

数据集中存在一定数量的错误或不一致是很常见的。有时这些不一致甚至不是错误,在一些主观任务(例如翻译)中,注释者可能根本无法就最佳答案达成一致。

如何处理这种噪音完全取决于手头的情况。如果由这些错误引起的噪声只占数据的一小部分,则可以放心地忽略它:在这种情况下,由学习算法将相关模式与噪声区分开来。否则,可以实施临时预处理来清理数据。在注释者的主观性起重要作用的情况下,让多个注释者注释相同的数据并检查注释者间的一致性是很有用的。这可能反过来用于过滤掉最不同意的实例,或以某种方式聚合注释(例如多数投票)。