使用已知错误数据进行神经网络训练

数据挖掘 神经网络 回归
2022-03-13 12:59:31

我正在尝试制作一个神经网络来预测一些值,但我知道我的训练数据包含很多“坏”的预期输出。那就是我知道一些数据会在错误的方向上训练它。

训练网络一次,然后删除网络产生大错误的数据(假设那是“坏”数据)然后用其余的重新训练它是否有意义?还有其他更好的方法来解决这个问题吗?

很抱歉,我才刚开始处理 NN,而且我不太了解相关的行话,无法使问题更清楚。

1个回答

如果您想识别和删除有问题的数据,那么最好在训练之前完成。

您的方法可能有一些运气,但您不能保证神经网络会帮助您根据错误值隔离问题条目,如果它同时接受了“好”和“坏”条目的训练。这取决于问题数据的性质。您冒着极大的风险,模型将与问题数据拟合得足够好,从而导致您拒绝好的数据。

相反,您应该尝试想一种方法来更直接地识别不良数据,并且在训练预测任务之前。

这里有一个想法:您是否能够手动识别足够的好数据和坏数据 - 足以训练和测试分类器?然后将一些数据标记为“好”或“坏”,训练分类器并对其进行测试 - 测试应该在一些保留的标记值上进行,以帮助您评估准确性。如果您的分类器具有良好的准确率,您可以有一定的信心使用它来过滤剩余的数据,并且仅将“良好”的分类数据用于您的原始训练目标。