如何约束具有相关坐标的动作?

人工智能 强化学习 政策梯度 马尔可夫决策过程
2021-11-07 11:18:21

我正在开发一个定制的 RL 环境,其中每个动作都表示为一个元组a=(a1,a2,,an)这样必须满足某些条件才能进入a(例如,a1+a2++anconstant)。

我正在使用策略梯度方法,但在对动作的潜在概率分布进行建模时遇到了一些困难。有没有朝这个方向做的工作?

对于约束a1+a2++anconstant,我正在考虑生成n+1均匀随机变量U1,U2,,Un,U, 并设置ai=constant×U×Uij=1nUj. 问题是联合密度计算起来有点混乱,这是获得负对数似然所必需的。我很好奇这个问题在实践中是如何处理的。

1个回答

乍一看,我认为这类似于“连续离散”动作选择(https://arxiv.org/pdf/1810.06394.pdf)。但是,我认为您的问题有所不同。

我假设每个ai是连续的,并且与您的环境交互的动作是整个向量a=(a1,a2,,an)而不是个人ai. 然后,您可以将其视为分层问题。如果你想a1+a2<2例如,那么你可以采样a1U(0,2)a2|a1U(0,2a1)并且有p(a)=p(a2|a1)p(a1). 你如何做到这一点的细节更取决于你的问题是如何设置的。

也许您可以从上面链接的论文中找到类似的想法。此外,机器人文献中的其他工作研究了结构化和混合动作空间。