我有一个神经网络 (MLP),它始终低估了验证集、测试集和训练集上的目标变量(与验证集和测试集的数量大致相同)。换句话说,神经网络回归输出列 (Y_hat) 中的条目总和比目标变量列 (Y) 中的条目总和少 10%。目标列中的条目大于或等于零,并且有相当数量的零条目。目标变量分布的右侧尾部很长。
使用许多随机种子拟合神经网络始终会导致相似的结果(神经网络都以相同的方向和相似的量偏置)。
这个问题似乎对重要超参数的变化相当稳健,包括: - 提前停止 - 学习率计划 - 模型复杂性 - 正则化(dropout,batch norm)
对于低容量的神经网络,这个问题不太严重。
有没有人知道为什么会发生这种持续的低估?