人工智能 - 在强化学习中，终端/目标状态的值总是为零吗？ - 吾爱随笔录

人工智能强化学习环境价值函数

2021-11-01 17:58:42

假设我们在一个 $3 \times 3$ 状态编号为的网格世界 $0,1, \dots, 8$ . 假设目标状态是 $8$ ，降落在目标状态的奖励为 $10$ ，而只是在网格世界中闲逛的奖励是 $0$ . 是状态的状态值 $8$ 总是 $0$ ?

1个回答

在强化学习中，终端/目标状态的值总是为零吗？

是的，对于偶发性问题，根据定义，终止状态的值始终为零。

一个国家的价值 $v(s)$ 是来自所有未来时间步的奖励的预期总和（可能是折扣的）。处于终止状态时没有未来的时间步长，因此该总和必须为零。

为了数学符号的一致性，您可以将终端状态视为“吸收”，即任何离开它的转换都会导致零奖励并返回到相同的终端状态。然后你可以使用值函数的定义来展示同样的东西：

v_{π} (s) = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1} | S_{t} = s]

$v_{\pi}(s) = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_{t} = s]$

如果 $s = s_T$ ，终端状态，然后是所有“未来的奖励” $k=0$ 从奖励开始 $R_{t+1}$ 必须为零。这与奖励一致 $R_{t}$ ，即转换到终端状态时的奖励，为任意值。

如果您在终端状态下接受“空”操作，您可以使用操作值函数显示类似的内容。

其它你可能感兴趣的问题