人工智能 - 在 PPO 的上下文中，输入的标准化是如何工作的？ - 吾爱随笔录

在 PPO 的上下文中，输入的标准化意味着什么？在一个情节的每个时间步，如果我跟踪它们，我只知道这个时间步和之前的时间步的值。这意味着对于每个观察和每个时间步的每个奖励，我将执行以下操作：

value = (value - mean) / std

在将它们传递给NN之前，对吗？具体来说，我通过跟踪整个情节的值来计算均值和标准差，并且在每个时间步，我将新值添加到数组中。这是一种有效的方法吗？

另外，我该如何处理消极的奖励，比如积极的？