强化学习的哪些组成部分对结果影响最大?

人工智能 强化学习 人工智能设计 超参数优化 超参数 环境
2021-11-14 09:19:25

我正在研究关于强化学习问题的论文,并试图将我的时间优先用于它的不同组成部分:

  • 形式化代理环境(如状态、动作空间和奖励结构的设计)
  • 学习算法的选择
  • 网络架构和规模的选择
  • 训练设置的设计

它是具有模拟物理(在 Unity 中)的 3D 环境中的代理,其领域是实时战略游戏。这是一个训练数据有约束的环境,所以样本效率非常重要。

现在我的问题是:我确实预计状态和动作空间的设计将对训练结果产生重大影响,尤其是在这种训练数据很少的环境中。

但是,有没有一种方法可以明确优先考虑哪些组件对于 RL 设置最重要?

时间是有限的,对我来说,作为一个初学者,似乎很难确定哪个组件是最重要的,最需要关注的。仅彻底测试学习算法的超参数本身将花费很长时间。显然,忽略任何组件都会导致糟糕的结果。

有没有办法知道应该更关注哪个组件?

1个回答

我不认为有适用于所有情况的策略。在某些情况下,可能需要仔细设计奖励功能(例如自动驾驶汽车),但在其他情况下,可能需要快速设计奖励功能(例如国际象棋),而 RL 系统的其他部分可能需要更加小心.

在这里,您可以找到解决 RL 问题的技巧。例如,我发现一个有用的技巧,虽然一旦你听说它可能很明显,就是将你的策略与随机策略进行比较。另请参阅这些提示