数据挖掘 - 强化学习中 V 和 Q 之间联系的证明 - 吾爱随笔录

数据挖掘强化学习

2022-02-18 08:10:01

我一直在学习SpinningUp 材料中的一些基础强化学习。

有没有数学证明 $V^\pi(s) = E_{a \sim \pi} [Q^\pi(s, a)|s_0 = s]$ ?

1个回答

它非常简单地来自 V 和 Q 的定义。

这些是相关的定义：

G_{t} \dot{=} \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t \space \dot{=} \space \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

V^{π} (s) \dot{=} E_{A \sim π} [G_{t} | S_{t} = s]

$V^{\pi}(s) \space \dot{=} \space \mathbb{E}_{A \sim \pi}[G_t|S_t=s]$

Q^{π} (s, a) \dot{=} E_{A \sim π} [G_{t} | S_{t} = s, A_{t} = a]

$Q^{\pi}(s, a) \space \dot{=} \space \mathbb{E}_{A \sim \pi}[G_t|S_t=s, A_t=a]$

您可以忽略 return 的定义， $G_t$ ，为了完整起见，我将其包括在内，并简化了其他定义。

V 和 Q 的定义之间的唯一区别是添加了 $a$ 在条件。如果您删除 Q 定义中的操作选择，并将其改为遵循策略，您将返回 V 的定义。

您还可以使用策略函数扩展 V 定义中的期望以显示相同的内容：

V^{π} (s) = E_{A \sim π} [G_{t} | S_{t} = s]

$V^{\pi}(s) = \mathbb{E}_{A \sim \pi}[G_t|S_t=s]$

V^{π} (s) = \sum_{a} π (a | s) E_{A \sim π} [G_{t} | S_{t} = s, A_{t} = a]

$V^{\pi}(s) = \sum_{a}\pi(a|s) \mathbb{E}_{A \sim \pi}[G_t|S_t=s, A_t=a]$

V^{π} (s) = \sum_{a} π (a | s) Q^{π} (s, a)

$V^{\pi}(s) = \sum_{a}\pi(a|s) Q^{\pi}(s,a)$

将其转换回对策略的期望：

V^{π} (s) = E_{A \sim π} [Q^{π} (S_{t}, A_{t}) | S_{t} = s]

$V^{\pi}(s) = \mathbb{E}_{A \sim \pi}[Q^{\pi}(S_t,A_t)|S_t=s]$

其它你可能感兴趣的问题