人工智能 - AlphaZero 的网络被“充分训练”意味着什么 - 吾爱随笔录

阅读这篇关于 AlphaZero 的博文： https ://deepmind.com/blog/article/alphazero-shedding-new-light-grand-games-chess-shogi-and-go

它使用诸如“网络需要的训练量”和“完全训练”之类的语言来描述他们在停止训练之前让机器与自己对战多长时间。他们规定国际象棋、将棋和围棋的训练时间分别为 9 小时、12 小时和 13 天。为什么会有一个训练“完成”的点？他们在 Y 轴（其 Elo 评级）上显示了 AlphaZero 的性能图，作为训练步数的函数。事实上，随着训练步骤的数量增加超过某个点，性能似乎趋于平稳。这是来自该网站的国际象棋表现与训练步骤的图片：

请注意，作为训练步骤的函数，Elo 评分的平稳程度有多么明显。

第一：我是否正确解释了这一点？也就是说，随着训练课程趋于无限，性能改进是否存在渐近限制？
如果我解释正确，为什么会有限制？更多的训练不是意味着更好的改进和改进吗？对我来说，第 100 万个训练步骤产生的改进可能比第一个训练步骤少，但我不希望有一个渐近限制。也就是说，在下棋的前 10 个小时左右的过程中，在前 200k 训练步骤中，它可能会获得大约 3500 Elo 积分。如果它在今年剩下的时间里继续运行，我预计它会大大超过这个水平。也许它的 Elo 评级翻了一番？这种直觉错了吗？如果是这样，在前 10 个小时的比赛之后，限制其训练进度的因素是什么？

谢谢！