如何纠正数据集中错误标记的数据?

数据挖掘 数据 标签
2022-03-04 02:53:21

我有一个大约 30 万条记录的数据集。类是高度不平衡的(这意味着一个可能有 30k 条记录,而另一个可能只有 100 条)。不幸的是,大约 5% 的记录被错误标记。

有没有办法找出哪些元素是错误的,所以我可以丢弃它们?

1个回答

是的!对于您的分类算法,这可能是一个很好的测试用例。只有 5% 的错误标记,一个好的算法将能够通过对这些错误标记的记录进行更糟糕的预测来轻松识别“异常值”。

如果您至少能够识别“正确”的记录来生成一个更好的训练集,但即使没有,也有 5% 的错误标记,这不会是一个问题。这也导致了答案的第二部分,虽然删除或更正错误标记的记录可能更好,但它也可能无关紧要。

这显然是基于这样的假设,即 5% 的错误在某种程度上随机分布在所有类中。

最后,您没有提到任何可以识别错误标签的提示/数据/信息。显然,如果您有关于这些错误的信息,最好根据分析/规则生成进行一些预处理以识别和删除它们。