MDP - RL,同一状态的多个奖励可能吗?

数据挖掘 强化学习 马尔科夫过程
2022-02-25 04:33:33

这个问题来自 An Introduction to RL Pages 48 and 49。这个问题也可能与下面的问题有关,虽然我不确定: Cannot see what the "notation abuse" is, by the author of book

在第 48 页,提到 p:S * R * S * A -> [0,1] 是一个确定性函数:

动力学函数p:S×R×S×A[0,1]是一个有四个参数的普通确定性函数。

然而,在第 49 页,在等式 3.4 中,对 r 求和:

sSrRp(s,r|s,a)=1,for all sS,aA(s)

我的问题是,这是否意味着,有可能执行一个动作a这需要我们声明s,会导致多重奖励吗?

1个回答

有可能执行一个动作a这需要我们声明s,会导致多重奖励吗?

是的,这是真的,一般情况下,任何(s,a)对可以导致两者的结果范围sr. sr可以独立变化,前提是每个分布仅取决于(s,a). 在实践中r通常强烈依赖于一种或多种s,a或者s(如果它取决于后者,那么它仍然绝对取决于只是sa因为s确实 - 只是价值观sr允许相关)。

这不影响关于p(s,r|s,a)是确定性的。这是特定的概率s,r发生的结果应该是确定性的并且取决于(s,a)在马尔可夫决策过程中。