我目前有非常准确的可用数据,我想在这组干净的数据上训练我的分类方法,以学习区分类别的重要标记。但在未来,我训练有素的分类器将不会看到这些清理过的数据并对其执行决策;相反,它可能会在一些未知分布之后产生更多的噪音。因此,我想知道,如果我将来可能会看到噪声数据,那么训练噪声数据是否“更好”,或者训练好的数据,因为噪声数据应该(理想情况下)对应于清理后的数据,如果噪声是删除?
直观地说,如果我的目标是简单地执行分类,那么对噪声数据进行训练似乎是“更好”的方法,因为这更能代表我预期的未来输入。但是,如果我的目标是了解数据以及构成特定决策的内容,那么对已清理数据进行培训似乎是“更好”的方法。
但我忽略了什么吗?出于不同的原因(例如泛化、过度拟合、降维),对干净和/或嘈杂的数据进行训练是否更可取?