我有一个分类数据集,其中大约 20%(也许更多)的标签不正确。没有办法知道哪些标签不正确,也无法在将来收集更多数据时消除它们。
我在处理这个问题时看到的一种方法是训练一个分类器集合,然后只获取与集合多数票匹配的训练数据。
是否有任何其他算法/方法对未 100% 正确标记的数据更具弹性?我们甚至可以将这些数据视为监督学习吗?无论如何都可以信任经过训练的模型或性能指标,例如准确性和 F1 分数?
感谢您的帮助。
我有一个分类数据集,其中大约 20%(也许更多)的标签不正确。没有办法知道哪些标签不正确,也无法在将来收集更多数据时消除它们。
我在处理这个问题时看到的一种方法是训练一个分类器集合,然后只获取与集合多数票匹配的训练数据。
是否有任何其他算法/方法对未 100% 正确标记的数据更具弹性?我们甚至可以将这些数据视为监督学习吗?无论如何都可以信任经过训练的模型或性能指标,例如准确性和 F1 分数?
感谢您的帮助。
这个问题被称为“标签噪声”,有很多方法可以处理它(本质上你需要在模型中包含错误标记模式的可能性,并推断模式是否被错误标记,或者实际上属于错误决策边界的一侧)。Bootkrajang 和 Kaban有一篇关于这个主题的好论文,这是一个很好的起点。Lawrence 和 Scholkopf 的这篇论文也很值得研究。然而,关于这个问题的研究已经有相当长的历史了,IIRC 在 McLachlan 的《判别分析和统计模式识别》一书中对此进行了讨论。
如果您有大量数据,我建议首先使用数据子集进行测试,例如 ,这样您就没有所有错误标记的数据进行训练。也许还使用一些具有多个弱分类器的技术会有所帮助。