数据挖掘 - Pytorch：如何创建不来自衍生品的更新规则？ - 吾爱随笔录

我想实现以下算法，取自本书第 13.6 节：

在这里，神经网络的输出是 $V(S, w)$ 和 $\pi(A|S,\theta)$ ，参数化为 $w$ 和 $\theta$ 分别。

对于这个问题，我只会参考 $V(S,w)$ 为简单起见。

w和的更新规则theta，这两个网络的参数，依赖于Zw和Ztheta，这反过来又递归地依赖于它们自己，以及网络的输出的导数。

简化方程以创建一个损失项 [pytorch 可以处理] 可以使用loss.backward()将产生

$w \leftarrow w + \alpha^w \delta z^w_{new}$

$w \leftarrow w + \alpha^w \delta [\gamma \lambda^w z^w_{old} + I \nabla_wV(S,w)]$

$w \leftarrow w + \alpha^w \delta \nabla_w[\gamma \lambda^w z^w_{old} w + I V(S,w)]$

因此损失将是

$Loss = \delta[\gamma \lambda z^w_{old}w + I V(S,w)]$

我正在努力解决的一些问题：

如何获得 $w$ 对于损失项，含义，以某种方式直接访问他们的网络权重？
如何在没有数学操作的情况下编写迭代更新规则？这适用于难以或不可能进行此类操作的情况，或者更新规则以上述形式给出的情况（如书中所示），并且可以避免进入丢失形式的麻烦。这也可以防止错误，只需从（经过测试的）书中获取最终形式。