在机器学习的背景下,退火意味着什么?

数据挖掘 机器学习 深度学习 开放式健身房 定义
2022-02-26 05:32:09

Open AI 发布的一篇文章概述了 Open AI Five 的工作原理文章中有一段话是这样说的:

我们的代理被训练成最大化未来奖励的指数衰减总和,由称为 γ 的指数衰减因子加权。在 OpenAI 5 的最新训练运行中,我们将 γ 从 0.998(以 46 秒的半衰期评估未来奖励)退火至 0.9997(以 5 分钟的半衰期评估未来奖励)。

在这种情况下,退火是否意味着网络通过训练发现 γ 更好为 0.9997?这将如何确定?

我对该主题的有限理解导致我对如何退火 γ 做出以下假设:使用不同版本的 γ 在给定的时间内训练不同版本的网络。然后将这些不同版本的网络相互对战或他们的真实技能得分进行比较,以确定 γ 的理想值。

1个回答

退火是模拟退火的简称。模拟退火是在探索解决方案空间时缓慢降低接受较差解决方案的概率的过程。在实验过程中,γ值逐渐降低以平衡探索和开发。γ 是一个机器学习超参数,因此任何超参数搜索方法都可以工作(例如,手动选择或交叉验证)。