训练受限玻尔兹曼机的参数

数据挖掘 神经网络 优化 RBM
2022-03-08 19:14:44

为什么在许多论文中,受限玻尔兹曼机的参数是针对固定数量的迭代(epochs)进行训练,而不是选择与可能性的静止点相对应的参数?

表示可观察数据表示隐藏数据表示能量函数,表示归一化常数的概率为: 目标是根据模型 的概率假设一个人可以访问具有典型元素 个观测样本作为估计器,可以找到平均样本对数似然的导数的根: xhEZx

P(x)=hP(x,h)=heE(x,h)Z.
xθNxxi
{θ^Θ^:N1xilogp(xi)θ=0}
并选择一个最大化经验似然。存在许多不同的方法来近似对数似然的导数以促进(甚至允许)其计算。例如,经常使用对比发散和持久对比发散。我想知道在继续逼近对数似然的导数的同时,递归是否有意义。在看到每个数据点后,可以更新参数: θΘ^θxi
θi+1=θiηilogp(xi)θi
我在Hinton 学到的实践等。(2006 年)Tieleman(2008 年) 是不同的:两篇论文都先验地定义了许多固定迭代。有人可以告诉我为什么递归更新参数直到收敛不是一个好主意吗?特别是,我感兴趣的是我的推理是否存在理论缺陷,或者计算能力是否要求坚持固定数量的迭代。我很感激任何帮助!

1个回答

我认为问题在于对数似然不能直接计算,因为单位数量的复杂性呈指数级。真正的对数似然存在不同的代理,例如伪对数似然(更多here),原则上您可以训练 RBM,直到 PLL 没有太大变化。

但是,训练过程中涉及很多随机性,因此 PLL 很可能会非常嘈杂(我相信即使是真正的对数似然)。