我正在开发一个定制的 RL 环境,其中每个动作都表示为一个元组这样必须满足某些条件才能进入(例如,)。
我正在使用策略梯度方法,但在对动作的潜在概率分布进行建模时遇到了一些困难。有没有朝这个方向做的工作?
对于约束,我正在考虑生成均匀随机变量, 并设置. 问题是联合密度计算起来有点混乱,这是获得负对数似然所必需的。我很好奇这个问题在实践中是如何处理的。
我正在开发一个定制的 RL 环境,其中每个动作都表示为一个元组这样必须满足某些条件才能进入(例如,)。
我正在使用策略梯度方法,但在对动作的潜在概率分布进行建模时遇到了一些困难。有没有朝这个方向做的工作?
对于约束,我正在考虑生成均匀随机变量, 并设置. 问题是联合密度计算起来有点混乱,这是获得负对数似然所必需的。我很好奇这个问题在实践中是如何处理的。
乍一看,我认为这类似于“连续离散”动作选择(https://arxiv.org/pdf/1810.06394.pdf)。但是,我认为您的问题有所不同。
我假设每个是连续的,并且与您的环境交互的动作是整个向量而不是个人. 然后,您可以将其视为分层问题。如果你想例如,那么你可以采样和并且有. 你如何做到这一点的细节更取决于你的问题是如何设置的。
也许您可以从上面链接的论文中找到类似的想法。此外,机器人文献中的其他工作研究了结构化和混合动作空间。