Open AI 发布的一篇文章概述了 Open AI Five 的工作原理。文章中有一段话是这样说的:
我们的代理被训练成最大化未来奖励的指数衰减总和,由称为 γ 的指数衰减因子加权。在 OpenAI 5 的最新训练运行中,我们将 γ 从 0.998(以 46 秒的半衰期评估未来奖励)退火至 0.9997(以 5 分钟的半衰期评估未来奖励)。
在这种情况下,退火是否意味着网络通过训练发现 γ 更好为 0.9997?这将如何确定?
我对该主题的有限理解导致我对如何退火 γ 做出以下假设:使用不同版本的 γ 在给定的时间内训练不同版本的网络。然后将这些不同版本的网络相互对战或他们的真实技能得分进行比较,以确定 γ 的理想值。