人工智能 - 为什么在不知道奖励和转移函数的情况下不能应用价值迭代，Q-learning 是如何解决这个问题的？ - 吾爱随笔录

人工智能强化学习 q学习马尔可夫决策过程价值迭代

2021-11-05 11:43:24

我不明白为什么在不知道奖励和转换概率的情况下我们不能应用价值迭代。在这个讲座中，讲师说这与无法对样本进行最大值处理有关，但这意味着什么？

为什么 Q-learning 不需要知道奖励和转移函数？在Q-learning中，我们也有一个最大值，所以我不理解。

1个回答

对于正常值迭代，需要有模型，即转移概率，记为 $P(s' \mid s,a)$ .

使用 Q-learning，您可以使用当前奖励和已经存储的 Q 值：

$Q值更新$

价值函数之间的关系 $V(s)$ 和 $Q$ 功能 $Q(s, a)$ 那是 $V(s)$ 功能只是动作的价值 $a$ , 这样 $Q(s, a)$ 是最高的，也就是说， $V(s) = \max_a Q(s, a)$ .

其它你可能感兴趣的问题