我们如何利用 AlphaGo Zero 计算机的能力,在任何其他与生命相关的重要领域中有所作为?除了创造出可以比人类玩得更好的智力游戏之外,还有可能做出一些重要的事情吗?
在游戏领域(例如 AlphaGo Zero)取得的成就如何影响其他应用领域?
人工智能
机器学习
赌博
阿尔法零
2021-11-09 12:25:24
1个回答
是的,它创造了一些重要的东西。在 Alpha(Go) Zero 之前,所有(或几乎所有)强化学习的深度学习方法都是基于时差损失函数。时差损失函数的弱点在于它本质上是对自身进行训练,即使用相同方法产生的数据作为回归目标的一部分。这就产生了“外推误差”的问题——解决方案会爆炸,或者剧烈振荡。曾尝试缓解该问题(n 步算法),但它们并没有太大帮助。Alpha Zero 将深度网络与树搜索相结合(蒙特卡洛树搜索)。树搜索算法产生了广泛而长领域的高精度数据(价值函数),网络对价值的影响大大减少。这样,网络主要不是针对自身进行训练,而是针对树产生的数据进行训练,并且网络极大地加速了树搜索本身(将其用作启发式算法)。整体恰好比部分的总和多得多。
这种方法不限于广泛的博弈或 RL 理论。它可能适用于可以构建高精度模拟器的任何问题。本质上,如果问题允许蒙特卡洛树搜索或其他可以通过启发式增强的树搜索,则 Alpha Zero 方法可能会适用。当然,Alpha Zero 方法的计算成本很高,因此应用它并不总是有效的。
其它你可能感兴趣的问题