人工智能 - 怎么v*( s ) =最大限度πvπ（秒）v∗(s)=maxπvπ(s)也适用于随机策略？ - 吾爱随笔录

怎么v*( s ) =最大限度πvπ（秒）v∗(s)=maxπvπ(s)也适用于随机策略？

人工智能马尔可夫决策过程价值函数随机策略最优策略最优性

2021-10-31 18:58:30

我正在阅读 Sutton & Bartos 的书“强化学习简介”。在本书中，将最优价值函数定义为：

v_{*} (s) = max_{π} v_{π} (s),

$v_*(s) = \max_{\pi} v_\pi(s),$ 对所有人

s \in S

$s \in \mathcal{S}$ .

我们是否在所有确定性策略上取最大值，或者我们是否也查看随机策略（是否有一个示例，随机策略总是比确定性策略执行得更好？）

我的直觉是，随机策略的价值函数或多或少是它试图建模的确定性策略的线性组合，但是，有一些自我引用，所以它在数学上是不正确的）。

如果我们确实查看所有随机策略，我们不应该采取最高原则吗？或者我们是否知道，至高无上已经达到，因此它确实是一个最大值？

1个回答

价值函数定义为 $v_\pi(s) = \mathbb{E}_\pi[G_t | S_t = s]$ 在哪里 $G_t$ 是时间步的（折扣）回报 $t$ . 对政策的期望 $\pi$ 以及 MDP 的过渡动态。

现在，正如您所指出的，最佳价值函数定义为 $v_*(s) = \max_\pi v_\pi(s)\; ; \;\forall s \in \mathcal{S}$ . 我们在这里所做的只是选择一项政策 $\pi$ 最大化价值函数；这可以是确定性或随机策略，尽管直觉上它可能是确定性的，除非对于某些具有相同期望值的两个（或多个）动作的状态，在这种情况下，您可以以相等的概率采取任何上述动作，从而使政策随机化。

对于有限的 MDP（这也是我上面假设的），我们知道存在最优值函数（这在书中提到），所以在这里取最大值就可以了。

其它你可能感兴趣的问题

上一篇将 MCTS 与基于价值的方法一起使用与仅基于价值的方法相比有什么优势？下一篇如何开始使用多智能体强化学习？