PPO算法中argmax的目的是什么?

人工智能 强化学习 梯度下降 政策梯度 近端策略优化
2021-11-03 00:44:18

我对机器学习有点陌生,但在数学,尤其是微积分方面还不是很扎实。我目前正在尝试实现 spiningUp 网站中描述的 PPO 算法: 在此处输入图像描述

这条线让我很难过:

在此处输入图像描述

什么是argmax意思是,在这种情况下?他们还在讨论使用梯度上升来更新策略。所以,对于 argmaxθ与这样做相同:

在此处输入图像描述

在哪里J是 min() 函数吗?

1个回答

在这种情况下是的,J是大min表达式,然后您将 Adam 应用在上面。但要小心,因为他们说他们会上升,但自动微分软件通常会最小化给定的功能,所以你的J将是min().