受限玻尔兹曼机 (RBM) 的现代用例?

机器算法验证 参考 深度学习 受限玻尔兹曼机 生成模型
2022-01-31 12:29:46

背景:过去约 4 年(后alexnet)的许多现代研究似乎已经不再使用神经网络的生成预训练来实现最先进的分类结果。

例如,这里mnist 的最高结果包括前 50 名中只有 2 篇论文似乎使用了生成模型,这两者都是 RBM 的。其他 48 篇获奖论文是关于不同的判别式前馈架构,他们付出了很多努力来寻找更好/新颖的权重初始化和激活函数,这些初始化和激活函数不同于 RBM 和许多旧神经网络中使用的 sigmoid。

问题:是否有任何现代理由不再使用受限玻尔兹曼机?

如果没有,是否可以对这些前馈架构进行事实上的修改以使其任何层生成?

动机:我问是因为我看到的一些可用模型,通常是 RBM 上的变体,不一定具有与这些生成层/模型明显类似的判别对应物,反之亦然。例如:

  • mcRBM

  • ssRBM

  • CRBM(尽管有人可能会争辩说 CNN 使用的前馈架构有区别的类似架构)

此外,这些显然也是从 2010 年、2011 年和 2009 年开始的前 alexnet。

2个回答

这是一个古老的问题,但由于它本质上要求的是“最佳实践”,而不是技术上实际可行的(即,不需要太多的研究重点),当前的最佳实践类似于:

  • 目前通常不使用 RBM
  • 尽可能使用线性模型(线性回归、逻辑回归)
  • 否则,具有诸如全连接层、卷积层等层的深度前馈网络,并引入了某种正则化层,例如 dropout,以及最近的批量归一化
  • 当然中间有激活层,通常是 ReLU,但也使用了 tanh 和 sigmoid
  • 可能还有一些最大池(并不总是:平均池和其他也被使用)

对于生成用法,常见的技术包括:

我最近发现了这篇关于“Boltzmann Encoded Adversarial Machines”的论文,它将 RBM 与 CNN 集成为生成模型。

作者表明它在某些方面在数学上“更好”,并展示了一些玩具示例,与其他 GAN 模型相比,BEAM 似乎更有能力准确地学习数据分布。

CelebA 面孔的“真实世界”基准远没有那么令人印象深刻——目前尚不清楚 BEAM 是否比其他流行的 GAN 做得更好甚至更好。但是,在这种情况下使用 RBM 肯定很有趣。