我有一个想要解决的剩余使用寿命 (RUL) 预测问题。当我向我的 ANN 添加两个或更多特征作为输入时,我的 ANN 的准确性已经降低。更准确地说,我添加了 RMS 或 KURTOSIS(或两者)之类的功能。我原以为系统会改进,但情况越来越糟。
为什么会发生这种情况?性能下降的潜在原因是什么?
我知道当我们在层中添加更多节点(如隐藏层)时,可能会发生过度拟合。这是否与我的问题有关:使用两个以上的功能?
我有一个想要解决的剩余使用寿命 (RUL) 预测问题。当我向我的 ANN 添加两个或更多特征作为输入时,我的 ANN 的准确性已经降低。更准确地说,我添加了 RMS 或 KURTOSIS(或两者)之类的功能。我原以为系统会改进,但情况越来越糟。
为什么会发生这种情况?性能下降的潜在原因是什么?
我知道当我们在层中添加更多节点(如隐藏层)时,可能会发生过度拟合。这是否与我的问题有关:使用两个以上的功能?
如果附加特征的信息量少或具有误导性,它们也可能导致过度拟合。
考虑以下问题:
,.
假设真实数据集是从关系生成的:
,加或减 1 的概率为 0.2。
一个合理的模型估计是. 请注意,没有模型可以完美地拟合此数据,因为这两个 3 输入映射到不同的输出。
现在,假设我们添加一个新特性:一个随机数和:
这可能并不明显,但足够深和广泛的神经网络可以学习一个新功能:
如果或者.
否则。
并定义一个新的预测:.
这恰好对训练数据产生了完美的拟合。然而,它在新数据(如测试集)上的表现极差,因为它从随机噪声中学到了无意义的模式。巧合的是,它在大约 50% 的样本上会出错,而我们的第一个模型只会在 20% 的样本上出错。