我是强化学习的新手,我无法理解价值函数和 Q 值之间的区别
这是我目前的理解:Q 值只是所采取的特定动作的值,并且状态的值函数对该状态下可能的每个动作的 Q 值求和。
这个描述准确吗?
谢谢!
我是强化学习的新手,我无法理解价值函数和 Q 值之间的区别
这是我目前的理解:Q 值只是所采取的特定动作的值,并且状态的值函数对该状态下可能的每个动作的 Q 值求和。
这个描述准确吗?
谢谢!
这是我目前的理解:Q 值只是所采取的特定动作的值,并且状态的值函数对该状态下可能的每个动作的 Q 值求和。
这个描述准确吗?
不完全的。
首先 Q 值是一种价值函数,它通常被称为动作值。两个都和状态值函数在给定参数、已知环境和已知策略的情况下计算预期的未来回报描述了代理将如何在该环境中选择操作。
在行动价值的情况下,预期的未来回报是基于采取行动的代理人处于状态首先,然后是. 虽然状态值,预期的未来回报将取决于采取什么行动选择状态.
之间的关系有几种写法和. 如果策略函数是确定性的,则状态中的动作由然后:
如果策略函数是随机的,有选择动作的概率处于状态由:
正如您所建议的,这是一个总和,但由采取每个行动的概率加权。