我正在研究关于强化学习问题的论文,并试图将我的时间优先用于它的不同组成部分:
- 形式化代理环境(如状态、动作空间和奖励结构的设计)
- 学习算法的选择
- 网络架构和规模的选择
- 训练设置的设计
它是具有模拟物理(在 Unity 中)的 3D 环境中的代理,其领域是实时战略游戏。这是一个训练数据有约束的环境,所以样本效率非常重要。
现在我的问题是:我确实预计状态和动作空间的设计将对训练结果产生重大影响,尤其是在这种训练数据很少的环境中。
但是,有没有一种方法可以明确优先考虑哪些组件对于 RL 设置最重要?
时间是有限的,对我来说,作为一个初学者,似乎很难确定哪个组件是最重要的,最需要关注的。仅彻底测试学习算法的超参数本身将花费很长时间。显然,忽略任何组件都会导致糟糕的结果。
有没有办法知道应该更关注哪个组件?