取决于视角。

一方面，你有一个代理在一个环境中玩，另一个代理也在进化。这属于多智能体学习的定义，从诸如

迈克尔保龄球和曼努埃拉维罗索。使用可变学习率的多智能体学习。人工智能，136(2):215 – 250, 2002。
迈克尔保龄球。多智能体学习中的收敛和无悔。在第 17 届神经信息处理系统国际会议论文集上，NIPS'04，第 209-216 页，美国马萨诸塞州剑桥市，2004 年。麻省理工学院出版社。
MD Awheda 和 HM 施瓦茨。指数移动平均 q 学习算法。2013 年 IEEE 自适应动态规划和强化学习 (ADPRL) 研讨会，第 31-38 页，2013 年 4 月。
警长 Abdallah 和 Victor Lesser。一种具有非线性动力学的多智能体强化学习算法。人工智能研究杂志，33：521-549，2008。

但是，您也可以声称您只是在非平稳环境（该环境包含游戏规则和对手）上简单地让单个智能体学习，并且您只是在此基础上学习。从这个角度来看，根本没有多智能体学习。

其它你可能感兴趣的问题