带有一些错误标记数据的数据集(大约 1%)

数据挖掘 机器学习 分类
2022-02-28 23:17:05

我有一个包含大约 1% 错误标签数据的数据集,这是一个多标签问题,我想找到一种方法来纠正那些不正确的标签。

假设错误标记的数据量很低,我将数据集划分为训练/测试并训练一个分类器,注意分类器不会过度拟合。

之后我知道测试集的准确性尽可能高,我使用分类器评估了整个数据集,结果是一组新的标签,我假设它们是正确的标签。

这是解决此类问题的正确方法吗?

1个回答

它认为这是一种合理的方法,但目前您似乎无法检查新标签是否正确。我认为您至少应该检查新标签不会引入比它们解决的错误更多的错误。

理想情况下,您会重新注释随机的实例样本,同时保留旧的(可能是错误的)标签和新标签。然后你可以使用这个样本作为测试集,并评估以下两点:

  • 新标签与旧标签相同的大多数/所有实例都应使用此标签进行预测(否则这意味着您的方法会更改正确的标签)
  • 大多数新标签与旧标签不同的实例都应该用新标签来预测(否则这意味着你的方法不能修复错误的标签)

这种方法的问题是您需要注释大量样本,因为您需要合理数量的错误标签,这些标签仅存在于 1% 的数据中。

如果无法重新注释大样本,您可以尝试一种增强方法:运行您的方法,然后获取预测为与旧标签不同的实例样本。在这些标签更改中,计算有多少是正确的。这种方法需要较少的手动注释工作,因为您不需要大量随机样本,但是它会错过分类器未更改的错误标签的情况。