minimax算法是基于模型的吗?

人工智能 强化学习 比较 极小极大 基于模型的方法 无模型方法
2021-11-17 12:03:14

试图了解 RL 中的无模型和基于模型的算法。在我的研究中,我看到了通过极小极大算法创建的搜索树。我认为这些树只能使用基于模型的代理创建,该代理了解游戏的完整环境/规则(如果是游戏)?如果不是,你能解释一下为什么吗?

1个回答

Minimax 是一种规划算法,所有规划算法都需要访问环境模型才能预测或模拟未来可能的状态和结果。

从技术上讲,这不需要 100% 准确或完整。它甚至可以是一个学习模型。但是,在将极小极大应用于经典的二人游戏(例如国际象棋或四连棋)的情况下,通常使用游戏规则来创建完美的预测。

规划和学习之间的这种差异与无模型与基于模型的强化学习并不完全相同,但它们的想法确实有很大的重叠。例如,您可以将 DQN 中使用的体验重放方法视为“背景规划”的一种形式,其中使用的模型是先前事件的记忆,而 DQN 中使用的核心 Q 学习算法通常被认为是无模型的。