人工智能 - 负反事实后悔 - 吾爱随笔录

人工智能强化学习游戏-ai 博弈论扑克

2021-11-02 01:42:43

在第 4 页，论文定义 $R^{T,+}_{i,\text{imm}}=\max\{R^{T}_{i,\text{imm}}, 0\}$ 在等式（5）之后。我很困惑为什么有必要？在我看来，因为在定义中 $R^{T}_{i,\text{imm}}$ 遗憾是针对最优动作计算的。

不是吗 $R^{T}_{i,\text{imm}}$ 总是非零已经？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题