为什么 RBM 是对称的?

机器算法验证 机器学习 神经网络
2022-04-04 14:34:56

我正在用RBM做一些实验,并注意它们在输入层和隐藏层之间使用对称权重。

为什么是这样?

我对这个设计决策背后的直觉特别感兴趣——例如,为什么不对称权重不起作用?

2个回答

好吧,RBM ​​是一个基于能量的模型,因此它具有无向边,因此您可以说“对称权重”。

RBM 定义的可见和隐藏单元的概率分布基于能量函数:

E=i,jwijvihjiαiviiβihi

如您所见,即使您想以某种方式引入不对称权重,它们也会平均化。

简而言之,在 RBM 的情况下,使用非对称权重毫无意义,因为它是由无向图定义的基于能量的模型。

现在,您想知道“这个设计决策背后的直觉是什么”。我想你可以在这里问这个问题,“为什么让 RBM 的基于能量的模型由无向图定义?为什么不使用有向图?”。这将是一个该死的深刻问题。

简短的回答是:你可以。类似于 RBM 的有向 egdes 的模型称为 sigmoid 信念网络。它们是有向图,而不是基于能量的。他们的培训方式不同,培训问题出现的地方也不同。由于它与您的原始问题没有直接联系,而且我只是认为您可能会感兴趣,因此我会为您提供 RBM 和 sigmoid 信念网络的出色学习材料:

https://class.coursera.org/neuralnets-2012-001/lecture/index

该课程由 Geoffrey Hinton 本人教授。如果您对一般的神经网络感兴趣,我强烈推荐它。此外,现在下载视频可能是个好主意,因为课程将在几周后关闭,然后它们将不再可用。与您的问题最相关的讲座,也将真正使您对 RBM 的理解更加深入,是 11、12、13、14。

反向传播神经网络以“归纳/因果”的方式工作,即第i层诱导第(i+1)层。它是单向的,而不是双向的结果,我们得到了“确定性”的结果,而不是随机的结果。


另一方面,如前所述, RBM​​是基于能量的。过渡是双向的也就是说,第i层可以影响第(i+1)层,第(i+1)层也可以影响第 i 层。在这样一个“双向”网络中,直觉告诉我们“对称”网络权重提供了巨大的潜在好处。

“对称”是指RBM中从第i层到第(i+1) 的传播权重与从(i+1)层到第i层的传播权重相同

i ----> (i+1) 等于 i <---- (i+1)

为什么是对称的?我猜……对称网络很有可能保持稳定。如果不对称,在左方向和右方向有两组不同的权重,网络可能表现得像“乒乓球”游戏一样不稳定,来回来回……爆炸。此外,我再次猜测,如果它是不对称的,那么即使网络达到某种平衡,能量分布也可能不是玻尔兹曼分布,我们不应该再称之为玻尔兹曼机了。

在两个方向上具有对称权重(并且如果我们给网络足够长的时间/迭代,无论初始化的 h 和 v 是什么),RBM ​​网络都可以达到平衡。平衡并不意味着 v 和 h 是固定的二元向量,而是意味着 v 和 h 将有一个固定的概率成为二元向量。在一个均衡中有许多状态。每个状态对应一个概率。每个状态对应于整个网络的一个能量。我们有兴趣使网络达到尽可能小的能量平衡。

例如,假设 v= 1 位,h= 1 位,我们有 4 种组合,vh ={00, 01, 10, 11},那么在均衡上,我们有固定概率 Prob(vh=00) 状态 00 Prob (vh=01) 状态 01 Prob(vh=10) 状态 10 Prob(vh=11) 状态 11 当然还有 Prob(vh=00)+Prob(vh=01)+Prob(vh=10)+Prob(vh =11)=1 显然,概率是由 RBM 定义的。 其中是所有可能状态的总和,(参考维基 RBM)

Prob(v,h)=eE(v,h)Z
ZZ=v,heE(v,h)

注意:对称并不意味着权重矩阵,在很多文献中记为W,是一个对称矩阵。不,W 不是对称矩阵。一方面,对称矩阵总是正方形的。然而,显然 RBM 权重矩阵不一定是方阵。也就是说,隐藏单元的数量不必与可见单元的数量相同。许多文献声称 RBM 权重矩阵是“对称的”,这是非常具有误导性的。