在我对批次标准化的理解中,均值和方差是在整个批次上计算的,然后添加到总体平均值中。然后将该平均值应用于测试集以估计整个测试集的均值和方差。但是,DropConnect 在训练期间删除连接作为网络正则化的一种形式。该模型通过通常缺少一半连接的网络计算批量统计信息。在测试时,使用所有连接。这不应该影响总体和/或测试集的均值和方差,抛弃估计的均值和方差,还是网络会随着时间的推移而稳定下来?
在批量标准化中,不应该使用 DropConnect 损害测试准确性吗?
数据挖掘
神经网络
批量标准化
2022-01-28 22:46:07
1个回答
TL;博士
这是一个有趣的想法,可能最好用您的具体问题进行测试;但是,一般认为,考虑到训练期间的整体效果,不同时使用 Dropout(包括 DropConnect)和 Batch-Norm 会获得更好的结果。最近的证据/测试。话虽如此,我认为无论如何最终都会平衡,正如你所建议的那样。
更多注意事项
查看基本实现的解释,您可以正确地说均值和方差的批量归一化计算可能会受到影响 - 但它肯定取决于您计算批量统计数据的顺序吗?
关于将批处理规范、辍学和激活本身等层应用于权重的顺序一直存在争议(参见例如this question )。有一个论点(上面指出)认为两者一起使用不是一个好主意。这里还有一些更重要的观点。
如果您查看此处总结的三个实现,您会发现Dropout和DropConnect之间没有太大区别......它只是正确缩放值,以便(预期)总和保持一致。
各有各的!
它几乎变得哲学!我相信这取决于您个人对我们为什么使用这些层的看法。如果您将 Dropout 视为限制网络和防止神经元共同适应的一种手段,那么我们正试图阻止信息通过网络的某些路径流动,因此将这些信息也从批处理规范中删除可能是有意义的计算。如果您将批处理规范视为人工处理层的输入分布的外科精确方法,您可能希望在 DropConnect 将任何权重设置为零之前计算批处理规范统计数据并在整个出站批处理上使用这些统计数据。
其它你可能感兴趣的问题