人工智能 - 在游戏领域（例如 AlphaGo Zero）取得的成就如何影响其他应用领域？ - 吾爱随笔录

在游戏领域（例如 AlphaGo Zero）取得的成就如何影响其他应用领域？

人工智能机器学习赌博阿尔法零

2021-11-09 12:25:24

我们如何利用 AlphaGo Zero 计算机的能力，在任何其他与生命相关的重要领域中有所作为？除了创造出可以比人类玩得更好的智力游戏之外，还有可能做出一些重要的事情吗？

1个回答

是的，它创造了一些重要的东西。在 Alpha(Go) Zero 之前，所有（或几乎所有）强化学习的深度学习方法都是基于时差损失函数。时差损失函数的弱点在于它本质上是对自身进行训练，即使用相同方法产生的数据作为回归目标的一部分。这就产生了“外推误差”的问题——解决方案会爆炸，或者剧烈振荡。曾尝试缓解该问题（n 步算法），但它们并没有太大帮助。Alpha Zero 将深度网络与树搜索相结合（蒙特卡洛树搜索）。树搜索算法产生了广泛而长领域的高精度数据（价值函数），网络对价值的影响大大减少。这样，网络主要不是针对自身进行训练，而是针对树产生的数据进行训练，并且网络极大地加速了树搜索本身（将其用作启发式算法）。整体恰好比部分的总和多得多。

这种方法不限于广泛的博弈或 RL 理论。它可能适用于可以构建高精度模拟器的任何问题。本质上，如果问题允许蒙特卡洛树搜索或其他可以通过启发式增强的树搜索，则 Alpha Zero 方法可能会适用。当然，Alpha Zero 方法的计算成本很高，因此应用它并不总是有效的。

其它你可能感兴趣的问题

上一篇如何从一组单词中造出有意义的句子？下一篇反向传播是否一次更新一层权重？