是什么让您在您的环境中实施 DDPG?
人工智能
强化学习
执行
ddpg
超参数
2021-11-07 22:00:22
1个回答
以下是一些帮助我在类似Reacher的环境中加速 DDPG 训练的调整:
- 与原始论文相比,减小了神经网络的大小。代替:
2 个隐藏层,分别有 400 和 300 个单位
我为两个隐藏层使用了 128 个单位。我在您的实现中看到您使用了 256,也许您可以尝试减少它。
- 正如论文中所建议的,我添加了批量标准化:
...手动缩放功能,使它们在不同环境和单位中处于相似的范围内。我们通过采用来自深度学习的最新技术来解决这个问题,称为批量标准化(Ioffe & Szegedy,2015)。该技术对小批量中样本的每个维度进行归一化,以获得单位均值和方差。
您使用的实现似乎不包括这个。
- 降低价值,这是用于启用探索的 Ornstein-Uhlenbeck 过程的参数。原来是, 我用了. (我在您的代码中找不到此参数的设置位置。)
我不完全确定这是否会对您的环境有所帮助,但这只是为了给您一些想法。
其它你可能感兴趣的问题