训练准确数据与噪声数据

数据挖掘 机器学习 错误处理 噪音 概括
2021-10-10 16:51:44

我目前有非常准确的可用数据,我想在这组干净的数据上训练我的分类方法,以学习区分类别的重要标记。但在未来,我训练有素的分类器将不会看到这些清理过的数据并对其执行决策;相反,它可能会在一些未知分布之后产生更多的噪音。因此,我想知道,如果我将来可能会看到噪声数据,那么训练噪声数据是否“更好”,或者训练好的数据,因为噪声数据应该(理想情况下)对应于清理后的数据,如果噪声是删除?

直观地说,如果我的目标是简单地执行分类,那么对噪声数据进行训练似乎是“更好”的方法,因为这更能代表我预期的未来输入。但是,如果我的目标是了解数据以及构成特定决策的内容,那么对已清理数据进行培训似乎是“更好”的方法。

但我忽略了什么吗?出于不同的原因(例如泛化、过度拟合、降维),对干净和/或嘈杂的数据进行训练是否更可取?

1个回答

这个问题的答案严重取决于你所说的“嘈杂”数据是什么意思。标签是否嘈杂,即错误?还是功能嘈杂?或两者?如果只有特征是嘈杂的,那么一定要使用嘈杂的数据,也可能是干净的数据。如果只有标签,绝对不要使用嘈杂的数据。如果两者都有,是否可以更正标签?至少,你能得到一个可靠的测试集(带有正确标签的代表)吗?您可以尝试对嘈杂和干净的数据进行训练,看看哪个提供更好的性能。这里要考虑的重要方法是正则化和提前停止。

它还取决于您使用的算法。例如,线性回归不太可能过拟合,而神经网络对噪声极为敏感,在这两个极端之间有多种方法。