负反事实后悔

人工智能 强化学习 游戏-ai 博弈论 扑克
2021-11-02 01:42:43

我正在阅读有关 CFR 算法信息不完整的游戏中的遗憾最小化论文。

在第 4 页,论文定义Ri,immT,+=max{Ri,immT,0}在等式(5)之后。我很困惑为什么有必要?在我看来,因为在定义中Ri,immT遗憾是针对最优动作计算的。

  • 一切都在意料之中,混合行动会有所作为吗?

不是吗Ri,immT总是非零已经?

0个回答
没有发现任何回复~