在深度 Q 学习中,我们为每一集执行算法,对于一集中的每一步,我们采取行动并记录奖励。
我有一种情况,我的动作是 2 元组. 说,在剧集中, 我必须采取行动的前半部分,那么对于这一集的每一步,我都必须采取行动的后半部分.
更具体地说,假设我们在剧集中而这一集有时间步长。首先,我必须采取. (在哪里用于参考情节.) 然后,对于每个,我必须采取行动. 一旦我选择,我得到一个观察和奖励全局动作.
是否可以应用深度 Q 学习?如果是这样,怎么做?我应该申请- 贪心两次?
在深度 Q 学习中,我们为每一集执行算法,对于一集中的每一步,我们采取行动并记录奖励。
我有一种情况,我的动作是 2 元组. 说,在剧集中, 我必须采取行动的前半部分,那么对于这一集的每一步,我都必须采取行动的后半部分.
更具体地说,假设我们在剧集中而这一集有时间步长。首先,我必须采取. (在哪里用于参考情节.) 然后,对于每个,我必须采取行动. 一旦我选择,我得到一个观察和奖励全局动作.
是否可以应用深度 Q 学习?如果是这样,怎么做?我应该申请- 贪心两次?