问题:
神经网络的贝叶斯处理如何解决后验具有指数级大量模式的事实?
背景:
似乎对神经网络的贝叶斯处理很感兴趣,我们尝试使用例如拉普拉斯近似、蒙特卡罗或变分方法对给定数据的网络权重的后验分布进行建模。原则上,这将允许您整合模型参数以避免过度拟合,并为预测提供经过良好校准的不确定性估计。
对于多层感知器,后验具有指数级数量的对称模式,因为参数不可识别。(正如 Kevin Murphy 的书“机器学习:概率视角”第 16.5.5 章中指出的那样,我们可以在不影响可能性的情况下置换任何隐藏单元的身份,从而导致参数的等效设置,其中是隐藏单元的数量。如果神经网络使用像这样的激活函数这是一个奇函数(),还有符号翻转退化,因为我们可以选择一个隐藏单元并翻转其所有传入边的符号,只要我们也翻转其所有传出边的符号。)
所以即使是一个很小的前馈网络, 后面会有后模态。例如,这听起来对于蒙特卡洛近似可能是一个大问题,因为您无法从每种模式中抽取一个样本。另一方面,我想可能是这样的情况,因为参数不可识别性引入的后验模式都是等价的,只要你至少对其中一个进行建模就可以了......
这真的是个问题吗?如果是这样,如何解决?