人工智能 - 在强化学习（老虎机问题）中定义奖励函数的准则是什么？ - 吾爱随笔录

我目前正在解决一个问题，我正在使用 RL（强盗问题）。

在我的系统中，我有一个代理选择一个动作 $k$ 可能的动作，以及决定代理是否选择正确动作的用户。如果用户对代理做出的决定感到满意，他将奖励 $+1$ ，否则 $-1$ .

这是一个很好的奖励功能吗，知道在我的问题中值在范围内 $[0, 1]$ ?

定义奖励函数是否有任何指导方针可遵循？是否有任何参考资料（书籍或文章）可以解决这个问题并提出解决方案？