数据挖掘 - 改进 CNN 中的初始交叉熵 - 吾爱随笔录

我有一个卷积神经网络，它的结构是二元分类器。我有两个相对标准的卷积/relu/池化层，然后是 2 层全连接网络输出到带有损失层的 softmax，用于二进制分类。但是我观察到一些不寻常的事情：

在网络的第 1 版中，我让两个卷积层都派生了 10 个特征，在初始化时，我的交叉熵误差约为 28。

在版本 2 中，我将卷积层的特征数量增加到 64 个特征。尽管仍然具有相同的全连接层和相同的 softmax，但我的交叉熵误差跃升至 340.0

我的问题是，为什么会发生这种情况。当然随机性是相同的，带有损失函数的 softmax 应该归一化，以便两个输出加起来为 1。那么为什么交叉熵会突然跳得这么高

这个答案有助于我对输出大量数字的交叉熵效应的理解