数据挖掘 - 为什么 MAE 仍然存在？ - 吾爱随笔录

这似乎是一个愚蠢的问题。但我只是想知道为什么 MAE 不会降低到接近 0 的值。

这是具有 2 个隐藏层和每个隐藏层 6 个神经元的 MLP 的结果，它试图根据三个输入值估计一个输出值。

为什么 NN（简单的前馈和反向传播，没什么特别的）甚至无法过度拟合并满足所需的训练值？

成本函数 = $0.5 (Target - Modeloutput)^2$

编辑：

事实上，我发现输入数据不一致。

已经欢呼了，我希望在解决输入数据的问题后能看到更好的结果。但我得到的是：

我正在使用 Minibatch-SGD，现在我认为它可能会陷入局部最小值。我读到了 Levenberg-Marquardt 算法，据说它稳定且快速。它是全局最小检测的更好算法吗？