在强化学习中,我们有一个奖励功能,可以告知智能体其当前动作和状态的执行情况。在一些通用设置中,奖励函数是三个变量的函数:
- 当前状态
- 当前状态下的当前动作
- 下一个状态
所以它看起来像:
我的问题是(这可能是我的误解),通常使用强化学习的人决定奖励是什么。例如,它为达到目标分配 1000 分,或为使自主机器人崩溃而分配 -1000 分。在这些情况下,我不清楚为什么我们需要样本来学习 R。R 是先验指定的,然后我们使用我们的代理。正确的?但是,我知道我错了,因为在 Andrew Ng 的笔记中他说:

他说我们不明确知道奖励函数。这对我来说似乎很奇怪。我知道我错了,如果有人能向我澄清在什么情况下我们实际上必须从样本中学习 R,我会很高兴?
(显然,必须学习转移概率,因为人们不知道环境将如何使我们的代理先验地移动)。