CNN 上的快速损失收敛表明什么?

人工智能 深度学习 卷积神经网络 训练 张量流
2021-11-14 08:56:19

我正在两个不同的 DL 库(Caffe e Tensorflow)中训练两个 CNN(AlexNet e GoogLeNet)。网络由每个图书馆的开发团队实施(这里这里

我将原始的 Imagenet 数据集减少到 1024 个类别的 1 个图像——但设置了 1000 个类别以在网络上进行分类。

所以我训练了 CNN,改变了处理单元(CPU/GPU)和批次大小,我观察到损失快速收敛到接近于零(大部分时间在 1 个 epoch 完成之前),如下图所示(Alexnet on Tensorflow):

在葡萄牙语中,“Épocas”是时代,“Perda”是损失。

权重衰减和初始学习率与我下载的模型上使用的相同,我只更改了数据集和批量大小。

为什么我的网络以这种方式融合,而不是像这种方式

1个回答

好的,所以你总是给出相同的类别这一事实意味着网络只需要为任何给定的输入输出相同的值。这非常容易学习(所有权重总是在相同的方向上移动),这就是这张图。

一旦您拥有更多类别(例如尝试 10 个),您会看到图表将更接近预期。