AlphaZero 的网络被“充分训练”意味着什么

人工智能 训练 零字母
2021-11-01 05:07:41

阅读这篇关于 AlphaZero 的博文: https ://deepmind.com/blog/article/alphazero-shedding-new-light-grand-games-chess-shogi-and-go

它使用诸如“网络需要的训练量”和“完全训练”之类的语言来描述他们在停止训练之前让机器与自己对战多长时间。他们规定国际象棋、将棋和围棋的训练时间分别为 9 小时、12 小时和 13 天。为什么会有一个训练“完成”的点?他们在 Y 轴(其 Elo 评级)上显示了 AlphaZero 的性能图,作为训练步数的函数。事实上,随着训练步骤的数量增加超过某个点,性能似乎趋于平稳。这是来自该网站的国际象棋表现与训练步骤的图片:

在此处输入图像描述

请注意,作为训练步骤的函数,Elo 评分的平稳程度有多么明显。

  1. 第一:我是否正确解释了这一点?也就是说,随着训练课程趋于无限,性能改进是否存在渐近限制?
  2. 如果我解释正确,为什么会有限制?更多的训练不是意味着更好的改进和改进吗?对我来说,第 100 万个训练步骤产生的改进可能比第一个训练步骤少,但我不希望有一个渐近限制。也就是说,在下棋的前 10 个小时左右的过程中,在前 200k 训练步骤中,它可能会获得大约 3500 Elo 积分。如果它在今年剩下的时间里继续运行,我预计它会大大超过这个水平。也许它的 Elo 评级翻了一番?这种直觉错了吗?如果是这样,在前 10 个小时的比赛之后,限制其训练进度的因素是什么?

谢谢!

1个回答

神经网络最终将达到其逼近能力的极限。你不能指望用相同数量的可学习参数无限长地学习越来越多的东西。此外,如果您最终达到最佳性能,那么您将无法发挥比最佳性能更佳的效果(并不是说它达到了最佳性能,但可能接近于它的逼近能力的最佳性能)。因此,这两个线索的组合可能会使性能提高达到极限。