人工智能 - 理解论文“Learning to predict by the methods of temporal Differences”中的TD(0)方程 - 吾爱随笔录

人工智能强化学习时差法符号

2021-11-16 06:00:10

\begin{matrix} (4) & Δ w_{t} = α (P_{t + 1} - P_{t}) \sum_{k = 1}^{t} λ^{t - k} \nabla_{w} P_{k} . \end{matrix}

$\Delta w_t = \alpha \left(P_{t+1} - P_t\right) \sum_{k=1}^{t}{\lambda^{t-k} \nabla_w P_k} \tag{4} \,.$ 什么时候

λ = 0

$\lambda = 0$ ，如在 TD(0) 中，该方法是如何学习的？看起来，随着

λ = 0

$\lambda = 0$ ，永远不会有体重变化，因此也不会学习。

我错过了什么吗？

1个回答

当 TD(0) 中的 lambda = 0 时，该方法如何学习？看起来，当 lambda = 0 时，权重永远不会发生变化，因此也不会学习。

我认为您缺少的细节是总和中的一项（总和的最终“迭代”，即 $k = t$ ）拥有 $\lambda$ 被提升到权力 $0$ ，以及任何提升到权力的东西 $0$ （甚至 $0$ ) 等于 $1$ . 因此对于 $\lambda = 0$ ，您的更新方程变为

Δ w_{t} = α (P_{t + 1} - P_{t}) \nabla_{w} P_{t},

$\Delta w_t = \alpha \left( P_{t+1} - P_t \right) \nabla_w P_t,$

这基本上是一步更新（就像 Sarsa 一样）。

其它你可能感兴趣的问题