在 PPO 的上下文中,输入的标准化意味着什么?在一个情节的每个时间步,如果我跟踪它们,我只知道这个时间步和之前的时间步的值。这意味着对于每个观察和每个时间步的每个奖励,我将执行以下操作:
value = (value - mean) / std
在将它们传递给NN之前,对吗?具体来说,我通过跟踪整个情节的值来计算均值和标准差,并且在每个时间步,我将新值添加到数组中。这是一种有效的方法吗?
另外,我该如何处理消极的奖励,比如积极的?
在 PPO 的上下文中,输入的标准化意味着什么?在一个情节的每个时间步,如果我跟踪它们,我只知道这个时间步和之前的时间步的值。这意味着对于每个观察和每个时间步的每个奖励,我将执行以下操作:
value = (value - mean) / std
在将它们传递给NN之前,对吗?具体来说,我通过跟踪整个情节的值来计算均值和标准差,并且在每个时间步,我将新值添加到数组中。这是一种有效的方法吗?
另外,我该如何处理消极的奖励,比如积极的?