贝叶斯神经网络:非常多模态的后验?

机器算法验证 机器学习 贝叶斯 神经网络 后部 可识别性
2022-03-26 01:01:03

问题:

神经网络的贝叶斯处理如何解决后验具有指数级大量模式的事实?

背景:

似乎对神经网络的贝叶斯处理很感兴趣,我们尝试使用例如拉普拉斯近似、蒙特卡罗或变分方法对给定数据的网络权重的后验分布进行建模。原则上,这将允许您整合模型参数以避免过度拟合,并为预测提供经过良好校准的不确定性估计。

对于多层感知器,后验具有指数级数量的对称模式,因为参数不可识别。(正如 Kevin Murphy 的书“机器学习:概率视角”第 16.5.5 章中指出的那样,我们可以在不影响可能性的情况下置换任何隐藏单元的身份,从而导致H!参数的等效设置,其中H是隐藏单元的数量。如果神经网络使用像这样的激活函数tanh这是一个奇函数(tanh(x)=tanh(x)),还有2H符号翻转退化,因为我们可以选择一个隐藏单元并翻转其所有传入边的符号,只要我们也翻转其所有传出边的符号。)

所以即使是一个很小的前馈网络H=15, 后面会有>1012后模态。例如,这听起来对于蒙特卡洛近似可能是一个大问题,因为您无法从每种模式中抽取一个样本。另一方面,我想可能是这样的情况,因为参数不可识别性引入的后验模式都是等价的,只要你至少对其中一个进行建模就可以了......

这真的是个问题吗?如果是这样,如何解决?

1个回答

关于如何解决不可识别性的问题,我可以推荐看看为贝叶斯推理改进神经网络的可识别性,它通过节点的排序“消除”(离散)组合不可识别性问题(作为一个怀疑的评论)。该论文还解决了一个连续的不可识别性问题(与 RELU 中的重新缩放不变性有关)并试图解决这个问题。在贝叶斯混合模型中遇到了非常相似的问题,可以“解决”,参见优秀教程识别贝叶斯混合模型

不幸的是,即使考虑到上述情况,仍然存在多种模式的风险,正如这里所讨论的,为什么贝叶斯神经网络是多模式的?.

我还可以推荐阅读“神经网络模型的贝叶斯分析中的问题”一文的第 3.7 节,其中讨论了导致多模态行为的机制。除了已经提到的那些,他们还讨论了一个他们称之为“节点重复”的问题!