数据挖掘 - 如何写出连续动作和状态空间的价值函数的定义 - 吾爱随笔录

在 Sutton 和 Barto (2018) 的书中 Reinforcement Learning: An Introduction。作者将价值函数定义为。

v_{π} (s) = E_{a \sim π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1} | s_{t} = s]

$v_{\pi}(\boldsymbol{s})=\mathbb{E}_{\boldsymbol{a}\,\sim\, \pi}\left[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}\,\bigg|\,\boldsymbol{s}_t=\boldsymbol{s} \right]$

如果和是连续的，我会认为通过使用状态值函数的贝尔曼方程，这可以写成积分 $\boldsymbol{a}\in \mathcal{A}$ $\boldsymbol{s}\in \mathcal{S}$

v_{π} (s) = \int_{a \in A} π (a | s) \int_{s^{'} \in S} p (s^{'} | s, a) [R_{t + 1} + γ v_{π} (s^{'})] d s^{'} d a .

它是否正确？

同样不使用贝尔曼方程，状态值函数的积分定义看起来像这样吗？

v_{π} (s) = \int_{a \in A} π (a | s) \int_{s^{'} \in S} p (s^{'} | s, a) [R_{t + 1} + γ [\int_{a^{'} \in A} π (a^{'} | s^{'}) \int_{s^{″} \in S} p (s^{″} | s^{'}, a^{'}) [R_{t + 2} + γ [\dots]] d s^{″} d a^{'}]] d s^{'} d a

$v_{\pi}(\boldsymbol{s})=\int_{\boldsymbol{a}\in\mathcal{A}}\pi\left(\boldsymbol{a}|\boldsymbol{s} \right)\int_{\boldsymbol{s}'\in \mathcal{S}}p(\boldsymbol{s}'|\boldsymbol{s},\boldsymbol{a})\left[R_{t+1}+\gamma \left[\int_{\boldsymbol{a}'\in\mathcal{A}}\pi\left(\boldsymbol{a}'|\boldsymbol{s}' \right)\int_{\boldsymbol{s}''\in \mathcal{S}}p(\boldsymbol{s}''|\boldsymbol{s}',\boldsymbol{a}')\left[R_{t+2}+\gamma\left[\cdots\right] \right]d\boldsymbol{s''}d\boldsymbol{a}'\right] \right]d\boldsymbol{s'}d\boldsymbol{a}$

我的积分版本是否正确？