机器算法验证 - 为什么 RBM 是对称的？ - 吾爱随笔录

为什么 RBM 是对称的？

机器算法验证机器学习神经网络

2022-04-04 14:34:56

我正在用RBM做一些实验，并注意它们在输入层和隐藏层之间使用对称权重。

为什么是这样？

我对这个设计决策背后的直觉特别感兴趣——例如，为什么不对称权重不起作用？

2个回答

好吧，RBM 是一个基于能量的模型，因此它具有无向边，因此您可以说“对称权重”。

RBM 定义的可见和隐藏单元的概率分布基于能量函数：

E = - \sum_{i, j} w_{i j} v_{i} h_{j} - \sum_{i} α_{i} v_{i} - \sum_{i} β_{i} h_{i}

$E = -\sum_{i,j} w_{ij} \, v_i \, h_j -\sum_i \alpha_i \, v_i - \sum_i \beta_i \, h_i$

如您所见，即使您想以某种方式引入不对称权重，它们也会平均化。

简而言之，在 RBM 的情况下，使用非对称权重毫无意义，因为它是由无向图定义的基于能量的模型。

现在，您想知道“这个设计决策背后的直觉是什么”。我想你可以在这里问这个问题，“为什么让 RBM 的基于能量的模型由无向图定义？为什么不使用有向图？”。这将是一个该死的深刻问题。

简短的回答是：你可以。类似于 RBM 的有向 egdes 的模型称为 sigmoid 信念网络。它们是有向图，而不是基于能量的。他们的培训方式不同，培训问题出现的地方也不同。由于它与您的原始问题没有直接联系，而且我只是认为您可能会感兴趣，因此我会为您提供 RBM 和 sigmoid 信念网络的出色学习材料：

https://class.coursera.org/neuralnets-2012-001/lecture/index

该课程由 Geoffrey Hinton 本人教授。如果您对一般的神经网络感兴趣，我强烈推荐它。此外，现在下载视频可能是个好主意，因为课程将在几周后关闭，然后它们将不再可用。与您的问题最相关的讲座，也将真正使您对 RBM 的理解更加深入，是 11、12、13、14。

反向传播神经网络以“归纳/因果”的方式工作，即第i层诱导第(i+1)层。它是单向的，而不是双向的。结果，我们得到了“确定性”的结果，而不是随机的结果。

另一方面，如前所述， RBM是基于能量的。过渡是双向的。也就是说，第i层可以影响第(i+1)层，第(i+1)层也可以影响第 i 层。在这样一个“双向”网络中，直觉告诉我们“对称”网络权重提供了巨大的潜在好处。

“对称”是指RBM中从第i层到第(i+1)层 的传播权重与从第(i+1)层到第i层的传播权重相同。

i ----> (i+1) 等于 i <---- (i+1)

为什么是对称的？我猜……对称网络很有可能保持稳定。如果不对称，在左方向和右方向有两组不同的权重，网络可能表现得像“乒乓球”游戏一样不稳定，来回来回……爆炸。此外，我再次猜测，如果它是不对称的，那么即使网络达到某种平衡，能量分布也可能不是玻尔兹曼分布，我们不应该再称之为玻尔兹曼机了。

在两个方向上具有对称权重（并且如果我们给网络足够长的时间/迭代，无论初始化的 h 和 v 是什么），RBM 网络都可以达到平衡。平衡并不意味着 v 和 h 是固定的二元向量，而是意味着 v 和 h 将有一个固定的概率成为二元向量。在一个均衡中有许多状态。每个状态对应一个概率。每个状态对应于整个网络的一个能量。我们有兴趣使网络达到尽可能小的能量平衡。

例如，假设 v= 1 位，h= 1 位，我们有 4 种组合，vh ={00, 01, 10, 11}，那么在均衡上，我们有固定概率 Prob(vh=00) 状态 00 Prob (vh=01) 状态 01 Prob(vh=10) 状态 10 Prob(vh=11) 状态 11 当然还有 Prob(vh=00)+Prob(vh=01)+Prob(vh=10)+Prob(vh =11)=1 显然，概率是由 RBM 定义的。其中是所有可能状态的总和，。（参考维基 RBM）

P r o b (v, h) = \frac{e^{- E (v, h)}}{Z}

$Prob(v,h) = \frac{e^{-E(v,h)}} {Z}$

Z

$Z$

Z = \sum_{v, h} e^{- E (v, h)}

$Z = \sum_{v,h} e^{-E(v,h)}$

注意：对称并不意味着权重矩阵，在很多文献中记为W，是一个对称矩阵。不，W 不是对称矩阵。一方面，对称矩阵总是正方形的。然而，显然 RBM 权重矩阵不一定是方阵。也就是说，隐藏单元的数量不必与可见单元的数量相同。许多文献声称 RBM 权重矩阵是“对称的”，这是非常具有误导性的。

其它你可能感兴趣的问题