人工智能 - 在深度 Q 学习中，如何在每一集和每一集的每一步内采取行动？ - 吾爱随笔录

在深度 Q 学习中，我们为每一集执行算法，对于一集中的每一步，我们采取行动并记录奖励。

我有一种情况，我的动作是 2 元组 $a=(a_1,a_2)$ . 说，在剧集中 $i$ , 我必须采取行动的前半部分 $a_1$ ，那么对于这一集的每一步，我都必须采取行动的后半部分 $a_2$ .

更具体地说，假设我们在剧集中 $i$ 而这一集有 $T$ 时间步长。首先，我必须采取 $a_1(i)$ . （在哪里 $i$ 用于参考情节 $i$ .) 然后，对于每个 $t_i\in\{1,2,\ldots,T\}$ ，我必须采取行动 $a_2(t_i)$ . 一旦我选择 $a_2(t_i)$ ，我得到一个观察和奖励全局动作 $(a_1(i), a_2(t_i))$ .

是否可以应用深度 Q 学习？如果是这样，怎么做？我应该申请 $\epsilon$ - 贪心两次？