人工智能 - 如何约束具有相关坐标的动作？ - 吾爱随笔录

如何约束具有相关坐标的动作？

人工智能强化学习政策梯度马尔可夫决策过程

2021-11-07 11:18:21

我正在开发一个定制的 RL 环境，其中每个动作都表示为一个元组 $a = (a_1,a_2,\cdots,a_n)$ 这样必须满足某些条件才能进入 $a$ （例如， $a_1+a_2+\cdots+a_n \leq \text{constant}$ ）。

我正在使用策略梯度方法，但在对动作的潜在概率分布进行建模时遇到了一些困难。有没有朝这个方向做的工作？

对于约束 $a_1+a_2+\cdots+a_n \leq \text{constant}$ ，我正在考虑生成 $n+1$ 均匀随机变量 $U_1,U_2,\cdots,U_n, U$ , 并设置 $a_i = \text{constant}\times U \times \frac{U_i}{\sum_{j=1}^n U_j}$ . 问题是联合密度计算起来有点混乱，这是获得负对数似然所必需的。我很好奇这个问题在实践中是如何处理的。

1个回答

乍一看，我认为这类似于“连续离散”动作选择（https://arxiv.org/pdf/1810.06394.pdf）。但是，我认为您的问题有所不同。

我假设每个 $a_i$ 是连续的，并且与您的环境交互的动作是整个向量 $a = (a_1,a_2,\dotso,a_n)$ 而不是个人 $a_i$ . 然后，您可以将其视为分层问题。如果你想 $a_1 + a_2 < 2$ 例如，那么你可以采样 $a_1 \sim U(0,2)$ 和 $a_2 | a_1 \sim U(0, 2-a_1)$ 并且有 $p(a) = p(a_2 | a_1)p(a_1)$ . 你如何做到这一点的细节更取决于你的问题是如何设置的。

也许您可以从上面链接的论文中找到类似的想法。此外，机器人文献中的其他工作研究了结构化和混合动作空间。

其它你可能感兴趣的问题

上一篇没有终端状态的策略梯度的蒙特卡洛更新下一篇在进行对象检测时，优化器的选择是否相关？