AlphaZero 可以被视为多智能体深度强化学习吗?
我找不到明确的答案。我会说是的,它是多智能体学习,因为有两个智能体相互对抗。
AlphaZero 可以被视为多智能体深度强化学习吗?
我找不到明确的答案。我会说是的,它是多智能体学习,因为有两个智能体相互对抗。
一方面,你有一个代理在一个环境中玩,另一个代理也在进化。这属于多智能体学习的定义,从诸如
迈克尔保龄球和曼努埃拉维罗索。使用可变学习率的多智能体学习。人工智能,136(2):215 – 250, 2002。
迈克尔保龄球。多智能体学习中的收敛和无悔。在第 17 届神经信息处理系统国际会议论文集上,NIPS'04,第 209-216 页,美国马萨诸塞州剑桥市,2004 年。麻省理工学院出版社。
MD Awheda 和 HM 施瓦茨。指数移动平均 q 学习算法。2013 年 IEEE 自适应动态规划和强化学习 (ADPRL) 研讨会,第 31-38 页,2013 年 4 月。
警长 Abdallah 和 Victor Lesser。一种具有非线性动力学的多智能体强化学习算法。人工智能研究杂志,33:521-549,2008。
但是,您也可以声称您只是在非平稳环境(该环境包含游戏规则和对手)上简单地让单个智能体学习,并且您只是在此基础上学习。从这个角度来看,根本没有多智能体学习。