Q-learning 是一种时间差分方法,而蒙特卡洛树搜索是一种蒙特卡洛方法。MiniMax 属于哪个类别?
MiniMax 属于哪个 RL 算法类别?
人工智能
强化学习
定义
极小极大
蒙特卡罗方法
时差法
2021-11-04 04:44:14
其它你可能感兴趣的问题
