在强化学习(老虎机问题)中定义奖励函数的准则是什么?

人工智能 强化学习 人工智能设计 奖励
2021-11-09 00:41:21

我目前正在解决一个问题,我正在使用 RL(强盗问题)。

在我的系统中,我有一个代理选择一个动作k可能的动作,以及决定代理是否选择正确动作的用户。如果用户对代理做出的决定感到满意,他将奖励+1, 否则1.

这是一个很好的奖励功能吗,知道在我的问题中值在范围内[0,1]?

定义奖励函数是否有任何指导方针可遵循?是否有任何参考资料(书籍或文章)可以解决这个问题并提出解决方案?

0个回答
没有发现任何回复~