我不明白为什么在不知道奖励和转换概率的情况下我们不能应用价值迭代。在这个讲座中,讲师说这与无法对样本进行最大值处理有关,但这意味着什么?
为什么 Q-learning 不需要知道奖励和转移函数?在Q-learning中,我们也有一个最大值,所以我不理解。
我不明白为什么在不知道奖励和转换概率的情况下我们不能应用价值迭代。在这个讲座中,讲师说这与无法对样本进行最大值处理有关,但这意味着什么?
为什么 Q-learning 不需要知道奖励和转移函数?在Q-learning中,我们也有一个最大值,所以我不理解。