为什么在不知道奖励和转移函数的情况下不能应用价值迭代,Q-learning 是如何解决这个问题的?

人工智能 强化学习 q学习 马尔可夫决策过程 价值迭代
2021-11-05 11:43:24

我不明白为什么在不知道奖励和转换概率的情况下我们不能应用价值迭代。这个讲座中,讲师说这与无法对样本进行最大值处理有关,但这意味着什么?

为什么 Q-learning 不需要知道奖励和转移函数?在Q-learning中,我们也有一个最大值,所以我不理解。

1个回答

对于正常值迭代,需要有模型,即转移概率,记为P(ss,a).

使用 Q-learning,您可以使用当前奖励和已经存储的 Q 值:

Q值更新

价值函数之间的关系V(s)Q功能Q(s,a)那是V(s)功能只是动作的价值a, 这样Q(s,a)是最高的,也就是说,V(s)=maxaQ(s,a).