在 PPO 的上下文中,输入的标准化是如何工作的?

人工智能 强化学习 深度学习 奖励 近端策略优化
2021-11-05 00:32:57

在 PPO 的上下文中,输入的标准化意味着什么?在一个情节的每个时间步,如果我跟踪它们,我只知道这个时间步和之前的时间步的值。这意味着对于每个观察和每个时间步的每个奖励,我将执行以下操作:

value = (value - mean) / std

在将它们传递给NN之前,对吗?具体来说,我通过跟踪整个情节的值来计算均值和标准差,并且在每个时间步,我将新值添加到数组中。这是一种有效的方法吗?

另外,我该如何处理消极的奖励,比如积极的?

0个回答
没有发现任何回复~