数据挖掘 - 训练受限玻尔兹曼机的参数 - 吾爱随笔录

为什么在许多论文中，受限玻尔兹曼机的参数是针对固定数量的迭代（epochs）进行训练，而不是选择与可能性的静止点相对应的参数？

表示可观察数据表示隐藏数据表示能量函数，表示归一化常数。的概率为：目标是根据模型的概率。假设一个人可以访问具有典型元素个观测样本。作为估计器，可以找到平均样本对数似然的导数的根： $x$ $h$ $E$ $Z$ $x$

P (x) = \sum_{h} P (x, h) = \sum_{h} \frac{e^{- E (x, h)}}{Z} .

$\begin{equation} P(x) = \sum_h P(x,h) = \sum_h \frac{e^{-E(x,h)}}{Z}. \end{equation}$

x

$x$

θ

$\theta$

N

$N$

x

$x$

x_{i}

$x_i$

{\hat{θ} \in \hat{Θ} : N^{- 1} \sum_{x_{i}} \frac{\partial \log p (x_{i})}{\partial θ} = 0}

$\begin{equation} \left\lbrace \hat{\theta} \in \hat{\Theta} : N^{-1} \sum_{x_i} \frac{\partial \log p(x_i)} {\partial \theta} = 0 \right\rbrace \end{equation}$ 并选择一个最大化经验似然。存在许多不同的方法来近似对数似然的导数以促进（甚至允许）其计算。例如，经常使用对比发散和持久对比发散。我想知道在继续逼近对数似然的导数的同时，递归是否有意义。在看到每个数据点后，可以更新参数：

θ^{⋆} \in \hat{Θ}

$\theta^\star \in \hat{\Theta}$

θ

$\theta$

x_{i}

$x_i$

θ_{i + 1} = θ_{i} - η_{i} \frac{\partial \log p (x_{i})}{\partial θ_{i}}

$\begin{equation} \theta_{i+1} = \theta_{i} - \eta_i \frac{\partial \log p(x_i)}{\partial \theta_i} \end{equation}$ 我在Hinton 学到的实践等。（2006 年）和Tieleman（2008 年）是不同的：两篇论文都先验地定义了许多固定迭代。有人可以告诉我为什么递归更新参数直到收敛不是一个好主意吗？特别是，我感兴趣的是我的推理是否存在理论缺陷，或者计算能力是否要求坚持固定数量的迭代。我很感激任何帮助！