在强化学习中,策略总是确定性的,还是动作的概率分布(我们从中采样)?如果策略是确定性的,为什么不是价值函数,它在给定状态下为给定策略定义如下
一个点输出?
在上面的定义中,我们取一个期望。这个期望是什么?
一个政策可以导致不同的路线吗?
在强化学习中,策略总是确定性的,还是动作的概率分布(我们从中采样)?如果策略是确定性的,为什么不是价值函数,它在给定状态下为给定策略定义如下
一个点输出?
在上面的定义中,我们取一个期望。这个期望是什么?
一个政策可以导致不同的路线吗?
这里有多个问题: 1. 策略总是确定性的吗?2. 如果策略是确定性的,那么值不应该也是确定性的吗?3. 价值函数估计中的期望值是多少?您的最后一个问题不是很清楚“政策能否导致具有不同当前值的路线?” 但我认为您的意思是: 4. 一项政策会导致不同的路线吗?
策略是一个函数,可以是确定性的,也可以是随机的。它规定了在特定状态下要采取的行动。分布 用于随机策略,映射函数用于确定性策略,其中是可能状态的集合,是可能的动作集合.
价值函数不是确定性的。如果您从该状态开始并继续遵循政策,则(状态的)价值是预期的奖励。即使策略是确定性的,奖励函数和环境也可能不是。
该公式中的期望是从状态开始的所有可能的路线。通常,路线或路径被分解为多个步骤,用于训练价值估计器。这些步骤可以用元组表示(状态、动作、奖励、下一个状态)
这与答案 2 有关,该策略可能导致不同的路径(甚至是确定性策略),因为环境通常不是确定性的。
该策略可以是随机的或确定的。在给定条件的情况下,期望超过训练示例。价值函数是对回报的估计,这就是为什么它是一个期望。