为什么在许多论文中,受限玻尔兹曼机的参数是针对固定数量的迭代(epochs)进行训练,而不是选择与可能性的静止点相对应的参数?
表示可观察数据表示隐藏数据表示能量函数,表示归一化常数。的概率为: 目标是根据模型 的概率。假设一个人可以访问具有典型元素 个观测样本。作为估计器,可以找到平均样本对数似然的导数的根:
并选择一个最大化经验似然。存在许多不同的方法来近似对数似然的导数以促进(甚至允许)其计算。例如,经常使用对比发散和持久对比发散。我想知道在继续逼近对数似然的导数的同时,递归是否有意义。在看到每个数据点后,可以更新参数:
我在Hinton
学到的实践等。(2006 年)和Tieleman(2008 年) 是不同的:两篇论文都先验地定义了许多固定迭代。有人可以告诉我为什么递归更新参数直到收敛不是一个好主意吗?特别是,我感兴趣的是我的推理是否存在理论缺陷,或者计算能力是否要求坚持固定数量的迭代。我很感激任何帮助!