阅读这篇关于 AlphaZero 的博文: https ://deepmind.com/blog/article/alphazero-shedding-new-light-grand-games-chess-shogi-and-go
它使用诸如“网络需要的训练量”和“完全训练”之类的语言来描述他们在停止训练之前让机器与自己对战多长时间。他们规定国际象棋、将棋和围棋的训练时间分别为 9 小时、12 小时和 13 天。为什么会有一个训练“完成”的点?他们在 Y 轴(其 Elo 评级)上显示了 AlphaZero 的性能图,作为训练步数的函数。事实上,随着训练步骤的数量增加超过某个点,性能似乎趋于平稳。这是来自该网站的国际象棋表现与训练步骤的图片:
请注意,作为训练步骤的函数,Elo 评分的平稳程度有多么明显。
- 第一:我是否正确解释了这一点?也就是说,随着训练课程趋于无限,性能改进是否存在渐近限制?
- 如果我解释正确,为什么会有限制?更多的训练不是意味着更好的改进和改进吗?对我来说,第 100 万个训练步骤产生的改进可能比第一个训练步骤少,但我不希望有一个渐近限制。也就是说,在下棋的前 10 个小时左右的过程中,在前 200k 训练步骤中,它可能会获得大约 3500 Elo 积分。如果它在今年剩下的时间里继续运行,我预计它会大大超过这个水平。也许它的 Elo 评级翻了一番?这种直觉错了吗?如果是这样,在前 10 个小时的比赛之后,限制其训练进度的因素是什么?
谢谢!