在深度 Q 学习中,如何在每一集和每一集的每一步内采取行动?

人工智能 强化学习 q学习 深度学习 dqn
2021-11-15 00:22:32

在深度 Q 学习中,我们为每一集执行算法,对于一集中的每一步,我们采取行动并记录奖励。

我有一种情况,我的动作是 2 元组a=(a1,a2). 说,在剧集中i, 我必须采取行动的前半部分a1,那么对于这一集的每一步,我都必须采取行动的后半部分a2.

更具体地说,假设我们在剧集中i而这一集有T时间步长。首先,我必须采取a1(i). (在哪里i用于参考情节i.) 然后,对于每个ti{1,2,,T},我必须采取行动a2(ti). 一旦我选择a2(ti),我得到一个观察和奖励全局动作(a1(i),a2(ti)).

是否可以应用深度 Q 学习?如果是这样,怎么做?我应该申请ϵ- 贪心两次?

0个回答
没有发现任何回复~