人工智能 - 具有稀疏奖励、连续动作和显着随机性的 RL 问题的适当算法 - 吾爱随笔录

人工智能强化学习奖励政策梯度 ddpg

2021-10-22 22:08:48

我正在研究具有以下属性的 RL 问题：

更具体地说，RL 代理代表投资者，终端奖励代表终端财富的效用（因此是稀疏性），动作代表投资组合头寸（因此是连续性），环境代表金融市场（因此是高随机性）。

我一直在尝试将 DDPG 与一组“常用”超参数一起使用（因为除了持续时间过长的实验之外，我不知道必须调整它们）但到目前为止（在 10000 集之后）似乎什么都没有发生。

我的问题如下：

1个回答

(1) 您可能需要研究 RND（随机网络蒸馏），它允许将基于好奇心的探索奖励用作代理的内在奖励。您可以使用内在奖励来补充环境带来的稀疏外在奖励回报。

一般的想法是有一个随机初始化的固定目标网络，它对下一个状态进行编码，并训练一个预测器网络来预测目标网络的输出。预测误差用于“量化新体验的新颖性”。更强的新颖性将很好地表明代理可能值得探索更多。

这篇 (A)论文的作者能够在 Montezuma's Revenge 中实现 SOTA 性能，该游戏因奖励稀少而臭名昭著。

在附录 A.1 中，提到：“通过修改用于训练模型的奖励（即 rt = it + et），任何 RL 算法都可以使用探索奖励。” 还提到作者将这种探索奖金与 PPO（也适用于连续动作空间）相结合。在 A.2 中，提供了一个伪代码。

关于高随机性和方差，我在这篇（C）论文中发现了一个有趣的评论（在第 3 页，图 2 下）：

“我们在不同网络配置上对 DDPG 的调查表明，对于 Hopper 环境，无论网络架构如何，DDPG 都非常不稳定。这部分归因于 DDPG 本身的高方差，也归因于 Hopper 任务的随机性增加。 "

该评论是在作者试图“调整 DDPG 以重现其他作品的结果，即使使用他们报告的超参数设置”的背景下发表的。

在这里查看关于 DDPG 如何与其他算法公平的不同基准。

(2) 根据所提供的信息，我无法为您提供针对您的具体问题的 DDPG 性能的定量评估。但是，我会推荐以下内容：

(a) 我会鼓励你在遇到难题时尝试不同的 RL 算法，这样你就可以进行基准测试并找出更合适的算法。同样在 (A) 中，作者提到，“PPO 是一种策略梯度方法，我们发现它几乎不需要调整即可获得良好的性能。”

(b) 尝试不同的超参数集。有很多方法可以系统地调整它们，但是关于这个的讨论将超出这个问题的范围。

其它你可能感兴趣的问题