人工智能 - 给所有奖励添加一个常数会改变情节任务中的最优策略集吗？ - 吾爱随笔录

人工智能强化学习

2021-10-26 02:39:43

我正在参加关于强化学习的 Coursera 课程。学习材料中没有解决一个问题：向所有奖励添加一个常数会改变情节任务中的最优策略集吗？

答案是肯定的——在奖励信号中添加一个常数可以使较长的情节或多或少有利（取决于常数是正数还是负数）。

谁能解释为什么会这样？为什么在连续（非偶发）任务的情况下它不会改变？我不明白为什么添加一个常数很重要——因为最优策略仍然希望获得最大的奖励......

谁能举个例子？

1个回答

一般我们可以写为 $R_c$ 增加常数的总奖励 $c$ 作为一项政策

R_{c} = \sum_{i = 0}^{K} (r_{i} + c) γ^{i} = \sum_{i = 0}^{K} r_{i} γ^{i} + \sum_{i = 0}^{K} c γ^{i}

$R_c = \sum_{i=0}^K (r_i + c) \gamma^i = \sum_{i=0}^K r_i \gamma^i + \sum_{i=0}^K c \gamma^i$ 因此，如果我们有两个具有相同总奖励的策略（不增加常数）

\sum_{i = 0}^{K_{1}} r_{i}^{1} γ^{i} = \sum_{i = 0}^{K_{2}} r_{i}^{2} γ^{i}

$\sum_{i=0}^{K_1} r_i^1 \gamma^i = \sum_{i=0}^{K_2} r_i^2 \gamma^i$ 但长度不同

K_{1} \neq K_{2}

$K_1 \neq K_2$ 加上常数的总奖励会有所不同，因为第二项

R_{c}

$R_c$ (

\sum_{i = 0}^{K} c γ^{i}

$\sum_{i=0}^K c \gamma^i$ ) 会有所不同。

举个例子：考虑两个最优策略，都产生相同的累积奖励 10，但是第一个策略在到达终端状态之前访问了 4 个状态，而第二个策略只访问了两个状态。奖励可以写成：

10 + 0 + 0 + 0 = 10

$10 + 0 + 0 + 0 = 10$ 和

0 + 10 = 10

$0 + 10 = 10$ 但是当我们给每个奖励加 100 时：

110 + 100 + 100 + 100 = 410

$110 + 100 + 100 + 100 = 410$ 和

100 + 110 = 210

$100 + 110 = 210$ 因此，现在第一个更好。

在连续情况下，剧集总是有长度的 $K = \infty$ . 因此，它们总是具有相同的长度，并且添加一个常数不会改变任何东西，因为 $R_c$ 保持不变。

其它你可能感兴趣的问题