我正在处理一些由领域专家分类的数据。但是,他们使用的分类并不是 100% 准确的。如何处理可能未正确分类的数据?
是否有任何模型对未以 100% 准确率分类的数据更具弹性?这种分类偏差是否会限制训练模型的性能?
我正在处理一些由领域专家分类的数据。但是,他们使用的分类并不是 100% 准确的。如何处理可能未正确分类的数据?
是否有任何模型对未以 100% 准确率分类的数据更具弹性?这种分类偏差是否会限制训练模型的性能?
是的,有偏见。例如,假设您的分类器在 80% 的时间里都同意专家的意见。现在,有几种选择,这里有两个极端:你的模型更好,因为它不同意的 20% 是专家错误的地方 -> 你的表现被低估了,或者你不同意的 20% 都是专家是对的->您的表现被高估了。
您可以通过搜索“不完美的黄金标准”找到更多信息。有一些不错的贝叶斯方法可用,但我对它们还不够熟悉,无法推荐任何一种。它也可能更像是一个“多读者”问题,特别是如果您的专家彼此不同意。
而且,是的,如果你用部分错误的类标签训练你的模型,你的模型会受到影响。它将尝试模仿有缺陷的专家。
我不知道任何特定方法是否特别具有抵抗力,我认为输出类概率的分类器可能会有所表现,因为您可以通过调整截止值来稍微纠正专家对某一类的偏见。但这只是我的直觉。
对于随机标签翻转噪声的情况,我们已经做了一些工作。文件:
J. Bootkrajang 和 A. Kaban。标签噪声鲁棒逻辑回归及其应用。过程。ECML-PKDD(1) 2012,第 143-158 页。
J. Bootkrajang 和 A. Kaban。使用稳健稀疏逻辑回归对错误标记的微阵列进行分类。生物信息学。29(7):870-877,2013。