人工智能 - MiniMax 属于哪个 RL 算法类别？ - 吾爱随笔录

人工智能强化学习定义极小极大蒙特卡罗方法时差法

2021-11-04 04:44:14

Q-learning 是一种时间差分方法，而蒙特卡洛树搜索是一种蒙特卡洛方法。MiniMax 属于哪个类别？

1个回答

我认为您从错误的方向看它，min-max 只是一种规划算法，决策策略，从某种意义上说，您正在描述它没有类别的其他算法/方法。例如，您有负最大算法，从某种意义上说，蒙特卡洛搜索树与蒙特卡洛是一样的。最小-最大类别确实是博弈论。

现在您应该以另一种方式考虑 RL 算法，这就是分类：

因此，如果您考虑方法，您提到过，让我们将它们放在正确的位置：

其它你可能感兴趣的问题