改进 CNN 中的初始交叉熵

数据挖掘 神经网络
2022-03-05 13:05:39

我有一个卷积神经网络,它的结构是二元分类器。我有两个相对标准的卷积/relu/池化层,然后是 2 层全连接网络输出到带有损失层的 softmax,用于二进制分类。但是我观察到一些不寻常的事情:

在网络的第 1 版中,我让两个卷积层都派生了 10 个特征,在初始化时,我的交叉熵误差约为 28。

在版本 2 中,我将卷积层的特征数量增加到 64 个特征。尽管仍然具有相同的全连接层和相同的 softmax,但我的交叉熵误差跃升至 340.0

我的问题是,为什么会发生这种情况。当然随机性是相同的,带有损失函数的 softmax 应该归一化,以便两个输出加起来为 1。那么为什么交叉熵会突然跳得这么高

这个答案有助于我对输出大量数字的交叉熵效应的理解

1个回答

通过增加卷积层中的特征数量,您实际上是在增加初始化为随机值的可学习参数的数量。因此,随机性增加了,这就是交叉熵损失增加的原因。希望这是您问题的充分理由。

例如,假设卷积层具有:

filter_size = (3, 3) and number_feature = 10 => number_parameters = 3*3*10 = 90
filter_size = (3, 3) and number_feature = 64 => number_parameters = 3*3*64 = 576