MiniMax 属于哪个 RL 算法类别?

人工智能 强化学习 定义 极小极大 蒙特卡罗方法 时差法
2021-11-04 04:44:14

Q-learning 是一种时间差分方法,而蒙特卡洛树搜索是一种蒙特卡洛方法。MiniMax 属于哪个类别?

1个回答

我认为您从错误的方向看它,min-max 只是一种规划算法,决策策略,从某种意义上说,您正在描述它没有类别的其他算法/方法。例如,您有负最大算法,从某种意义上说,蒙特卡洛搜索树与蒙特卡洛是一样的。最小-最大类别确实是博弈论。

现在您应该以另一种方式考虑 RL 算法,这就是分类:

因此,如果您考虑方法,您提到过,让我们将它们放在正确的位置:

  • 一般的 TD 方法 - 无模型
  • 蒙特卡罗方法 - 无模型
  • MinMax - 基于模型(可以讨论,但它肯定需要访问世界模型)