图形模型和玻尔兹曼机在数学上是否相关?

机器算法验证 机器学习 神经网络 数理统计 图形模型 受限玻尔兹曼机
2022-03-25 21:48:51

虽然我实际上在物理课上用玻尔兹曼机做过一些编程,但我不熟悉它们的理论特征。相比之下,我对图形模型的理论了解不多(关于 Lauritzen 的《图形模型》一书的前几章)。

问题:图模型和玻尔兹曼机之间有什么有意义的关系吗?玻尔兹曼机是一种图形模型吗?

显然玻尔兹曼机是一种神经网络。我听说有些神经网络在数学上与图形模型相关,而有些则不是。

CrossValidated 上没有回答我的问题的相关问题:
这与之前提出的问题类似:层次模型、神经网络、图形模型、贝叶斯网络之间的关系是什么?但更具体。

此外,对该问题的公认答案并不能澄清我的困惑——即使神经网络的标准图形表示中的节点不代表随机变量,也不一定意味着不存在这样的表示。具体来说,我正在考虑马尔可夫链的典型图形表示中的节点如何表示一组可能的状态,而不是随机变量Xi, 但也可以创建一个图表来显示Xi,这表明每个马尔可夫链实际上都是一个马尔可夫随机场。答案还说神经网络(可能包括玻尔兹曼机)是“有辨别力的”,但没有更详细地解释这种说法的含义,明显的后续问题也不是“图模型没有辨别力吗?” 解决。同样,接受的答案链接到 Kevin Murphy 的网站(我实际上在学习贝叶斯网络时阅读了他的一些博士论文),但是这个网站讨论贝叶斯网络,根本没有提到神经网络——因此它无法说明它们是如何是不同的。

这个另一个问题可能与我的最相似:数学建模神经网络作为图形模型但是,没有一个答案被接受,同样只提供参考但不解释参考(例如这个答案)。虽然有一天我希望能够理解这些参考资料,但现在我处于基本知识水平,并且最希望得到尽可能简化的答案。此外,在最佳答案 ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) 中链接的多伦多课程解决了这个问题,但不是很详细。此外,可能会回答我的问题的一次讲座的笔记不向公众提供。

3 月 25 日讲座 13b:信念网 7:43。对于这张幻灯片,请记住玻尔兹曼机。在那里,我们也有隐藏单元和可见单元,而且都是概率性的。BM 和 SBN 的共同点多于差异。9:16。如今,“图形模型”有时被认为是神经网络的一种特殊类别,但在此处描述的历史中,它们被认为是非常不同类型的系统。

2个回答

玻尔兹曼机与受限玻尔兹曼机

AFAIK 玻尔兹曼机是一种图形模型,与神经网络相关的模型是受限玻尔兹曼机(RBM)。

玻尔兹曼机和受限玻尔兹曼机之间的区别,来自《机器学习 A Probabilistic Perspective》一书 在此处输入图像描述

RBM 与神经网络

对于 RBM(参考:Geoffrey Hinton 训练受限玻尔兹曼机的实用指南

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
在哪里vh对应于上图中的可见单元和隐藏单元,以及σ()是 Sigmoid 函数。

条件概率以相同的网络层形式计算,因此训练得到的 RBM 权重可以直接用作神经网络的权重或作为训练的起点。

我认为 RBM 本身更像是一个图形模型而不是一种神经网络,因为它是无向的,它具有明确定义的条件独立性,并且它使用自己的训练算法(例如对比散度)。

这只是确认/验证了公认的答案,即玻尔兹曼机确实是图模型的一个特例。具体来说,这个问题在 Koller, Friedman, Probabilistic Graphical Models: Principles and Techniques的 pp. 127-127 中得到解决,见方框 4.C。

最早的马尔可夫网络模型之一是伊辛模型,它首先出现在统计物理学中,作为涉及相互作用原子系统的物理系统的能量模型……与伊辛模型相关的是玻尔兹曼机分布。 . 得到的能量可以用伊辛模型(练习 4.12)重新表述。

Ising 模型最初是统计力学文献中的一个概念,如何可以将其表述为图形模型,在示例 3.1.,第 3.3 节,第 41-43 页,Wainwright, Jordan, Graphical Models, Exponential中有详细说明家庭和变分推理

显然,Ising 模型在 1970 年代末和 1980 年代初的图形模型领域的基础上发挥了重要作用,至少基于 Steffen Lauritzen 在他的书《图形模型》的序言和介绍中所说的话。这种解释似乎也得到了 Koller 和 Friedman 上面引用的书中第 4.8 节的支持。

从 Ising 模型发展玻尔兹曼机可能是一个独立的事件,基于 Koller 和 Friedman 的同一部分,他们声称“玻尔兹曼机是由 Hinton 和 Sejnowski (1983) 首次提出的”,这似乎已经发生在开发马尔可夫随机场作为伊辛模型的推广的初步工作之后,尽管该论文背后的工作可能早于 1983 年就开始了。


一年多前我写这个问题时,我对这种关系的困惑源于我在物理学文献中第一次遇到伊辛模型和神经元的玻尔兹曼机器模型。正如科勒和弗里德曼所提到的,统计物理学界关于伊辛模型和相关概念的文献确实非常丰富。

根据我的经验,它也是相当孤立的,因为虽然研究图形模型的统计学家和计算机科学家会提到该领域与统计力学的关系,但我从未从统计物理学文献中找到任何参考文献提到与其他领域的联系或试图利用它。(因此让我对可能与其他领域有任何此类联系的概念产生怀疑和困惑。)

有关物理学家对伊辛模型和玻尔兹曼机的观点的示例,请参阅我第一次学习它的课程中的教科书如果我没记错的话,它还提到了平均场方法,在上面引用的 Jordan 和 Wainwright 的文章中也讨论了一些东西。