将 dropout 应用于人工中性网络同时应用贝叶斯正则化在概念上是否有意义?
一方面,我认为从技术上讲这应该可以正常工作,但另一方面,如果贝叶斯正则化就像在给定一些先验条件下找到 MAP 估计值,那么效果不应该只是它在您的结果中产生随机噪声吗?
将 dropout 应用于人工中性网络同时应用贝叶斯正则化在概念上是否有意义?
一方面,我认为从技术上讲这应该可以正常工作,但另一方面,如果贝叶斯正则化就像在给定一些先验条件下找到 MAP 估计值,那么效果不应该只是它在您的结果中产生随机噪声吗?
两者都使用实际上非常有意义。盖尔等人。提供了一个关于如何通过贝叶斯透镜解释 dropout 的很好的理论。简而言之,如果您使用 dropout + 正则化,您将隐含地最小化与贝叶斯神经网络 (BNN) 相同的损失,在该网络中,您可以在给定训练数据的情况下学习网络权重的后验分布。
您可以将完全贝叶斯方法视为在从 MLE 通过 MAP 到贝叶斯回归的道路上更进一步,因为前两者仅提供点估计,而后者提供对整个后验分布的访问。
如果你用 dropout 近似 BNN,引入的噪声将起到从后验分布中抽取样本的作用。正则化将扮演先验的角色,这与您在 MAP 上下文中给出的解释相同。但是,我不认为所代表的先验是相同的。
无论哪种方式,先验都有助于调节后验的“传播”。如果你选择一个大的正则化参数,它对应一个窄的先验分布,模型也会减少后验分布的方差。
如果你只需要一个带有 dropout 和正则化的简单 ANN,你可能不会太在意训练后使用近似后验,但我认为这仍然是一个很好的视角。