我非常熟悉用于分类的神经网络,但我是第一次尝试回归任务。我发现网络倾向于猜测整个数据集的平均值,而不是做出特定于案例的预测。
这种行为的潜在原因是什么,我该如何阻止它?
暗示
在我的具体情况下,这种行为存在于训练和验证集中。训练集非常小,输入是否与目标有很强的相关性值得怀疑。
还可能值得注意的是我正在训练图像。所以我正在使用CNN。
更新
我对我的模型进行了一些检查,发现它将我的 CNN 主干的输出驱动为 0,并且只是使用我的全连接层上的单个偏差来产生输出。我还发现,如果我在训练期间冻结偏差,我可以无限期地提高学习率,而损失不会爆炸......