我目前正在解决一个问题,我正在使用 RL(强盗问题)。
在我的系统中,我有一个代理选择一个动作可能的动作,以及决定代理是否选择正确动作的用户。如果用户对代理做出的决定感到满意,他将奖励, 否则.
这是一个很好的奖励功能吗,知道在我的问题中值在范围内?
定义奖励函数是否有任何指导方针可遵循?是否有任何参考资料(书籍或文章)可以解决这个问题并提出解决方案?
我目前正在解决一个问题,我正在使用 RL(强盗问题)。
在我的系统中,我有一个代理选择一个动作可能的动作,以及决定代理是否选择正确动作的用户。如果用户对代理做出的决定感到满意,他将奖励, 否则.
这是一个很好的奖励功能吗,知道在我的问题中值在范围内?
定义奖励函数是否有任何指导方针可遵循?是否有任何参考资料(书籍或文章)可以解决这个问题并提出解决方案?