我正在阅读有关 CFR 算法信息不完整的游戏中的遗憾最小化论文。
在第 4 页,论文定义R吨, +我,我=最大{R吨我,我, 0 }Ri,immT,+=max{Ri,immT,0}在等式(5)之后。我很困惑为什么有必要?在我看来,因为在定义中R吨我,我Ri,immT遗憾是针对最优动作计算的。
不是吗R吨我,我Ri,immT总是非零已经?