数据挖掘 - 训练准确数据与噪声数据 - 吾爱随笔录

我目前有非常准确的可用数据，我想在这组干净的数据上训练我的分类方法，以学习区分类别的重要标记。但在未来，我训练有素的分类器将不会看到这些清理过的数据并对其执行决策；相反，它可能会在一些未知分布之后产生更多的噪音。因此，我想知道，如果我将来可能会看到噪声数据，那么训练噪声数据是否“更好”，或者训练好的数据，因为噪声数据应该（理想情况下）对应于清理后的数据，如果噪声是删除？

直观地说，如果我的目标是简单地执行分类，那么对噪声数据进行训练似乎是“更好”的方法，因为这更能代表我预期的未来输入。但是，如果我的目标是了解数据以及构成特定决策的内容，那么对已清理数据进行培训似乎是“更好”的方法。

但我忽略了什么吗？出于不同的原因（例如泛化、过度拟合、降维），对干净和/或嘈杂的数据进行训练是否更可取？