经典 NN 上的贝叶斯正则化 NN

机器算法验证 贝叶斯 神经网络
2022-03-22 06:25:47

我看过一些研究文章声称经典神经网络通常缺乏令人满意的泛化能力,这通常会导致预测不准确,而贝叶斯正则化人工神经网络(BRANNs)比标准的反向传播网络更健壮,可以减少或消除需要长时间的交叉验证。

然而,这些文章没有为这种说法提供适当的推理/理由。

BRANN在哪些方面出于什么特定目的比经典 NN 更好?为什么?

2个回答

神经网络的关键问题往往是防止过度拟合。贝叶斯正则化(限制权重的大小)是解决此问题的一种方法,结构稳定(即限制隐藏节点和/或权重的数量是另一种方法)。这两种方法都不是灵丹妙药,通常正则化和结构稳定的组合更好(这意味着您需要再次交叉验证来选择网络架构 - 使用贝叶斯证据是一个坏主意,因为证据是有偏见的结果其在调整正则化参数中的用途,如果有任何模型未指定,则不可靠)。哪个效果最好基本上取决于问题,找出答案的最佳方法是尝试两者并查看(例如使用交叉验证以无偏见的方式估计性能)。

此外,正则化不一定是贝叶斯,您可以选择使用交叉验证对网络进行多少正则化。贝叶斯方法的问题之一是,如果模型未指定,它们可能会给出糟糕的结果,在这种情况下,基于交叉验证的正则化方法可能更稳健。

另一个重要的一点是,并非所有的贝叶斯神经网络公式都是相同的。MacKay 的证据框架往往不适用于分类问题,因为它使用的拉普拉斯近似对于权重的倾斜后验分布效果不佳。Radford Neal 的 MCMC 方法可能更适合这些任务,但计算成本高且评估收敛性等并不那么简单。

然而,神经网络模型很难正确处理,实际上更容易从核方法或高斯过程中获得良好的泛化性能,所以我会在大多数任务中使用它们,特别是在训练数据相对较少的情况下。

我最近对此进行了非常广泛的实证研究,但我需要找到一个期刊,可以接受从业者感兴趣的实证研究,但新的研究内容很少。

您将 BRANN 用于与常规 ANN 相同的目的,通常是分类和回归。正如 Dikran Marsupial 所说,它们更好,因为它们对过度拟合更健壮,并且允许您使用更多数量的神经元而不会遇到过度拟合。此外,它还为您提供了输出的误差线,也就是说,您可以衡量每个输出的置信度。

然而,像 dropout 和 maxout 这样的新技术似乎已经超越了这种技术,因为它们更易于使用并产生更好的结果。这里显示了 dropout 在某种意义上执行缩放和正则化。

不过,如果您对细节感兴趣,您可以查看David MacKay(用这种技术赢得一些比赛的人)的论文。