人工智能 - PPO算法中argmax的目的是什么？ - 吾爱随笔录

人工智能强化学习梯度下降政策梯度近端策略优化

2021-11-03 00:44:18

我对机器学习有点陌生，但在数学，尤其是微积分方面还不是很扎实。我目前正在尝试实现 spiningUp 网站中描述的 PPO 算法：

这条线让我很难过：

什么是 $\operatorname{argmax}$ 意思是，在这种情况下？他们还在讨论使用梯度上升来更新策略。所以，对于 argmax $\theta$ 与这样做相同：

在哪里 $J$ 是 min() 函数吗？

1个回答

在这种情况下是的， $J$ 是大 $\min$ 表达式，然后您将 Adam 应用在上面。但要小心，因为他们说他们会上升，但自动微分软件通常会最小化给定的功能，所以你的 $J$ 将是 $−\min(⋅)$ .

其它你可能感兴趣的问题