这个问题是我正在为真正的考试做准备的样本考试的一部分。我已经在这个问题上停留了很长一段时间,并且无法真正激发我的答案,因为它一直提到保证,有人可以解释我们在神经网络中可以有哪些保证,比如所描述的那个?
网络说明:
假设一个深度神经网络(DNN)将手写数字的图像(例如,MNIST)作为输入图像。输入网络由 28x28 = 784 个输入单元、一个逻辑单元隐藏层和一个作为输出层的 10 个单元的 softmax 组组成。损失函数是交叉熵。我们有很多训练案例,我们总是使用误差反向传播算法根据整个训练集计算权重更新。我们使用的学习率对于所有实际目的都足够小,但又不会小到网络无法学习。当权重更新为零时,我们停止。对于以下每个问题,回答是或否,并非常简要地解释。
问题:
这种 DNN 配置是否会使权重最小化损失值(可能存在多个全局最优值)?
这种 DNN 配置是否保证每一步都减少损失?我们使用我们的网络对图像进行分类,方法是简单地查看当网络呈现图像时 10 个输出单元中哪个获得最大概率,并将该输出单元的数量声明为网络猜测标签。
这种 DNN 配置是否保证网络在训练数据上(通过遵循这种分类策略)犯的错误数量永远不会增加?