我已按如下方式实现了我的 PPO 目标的完全损失:-
total_loss = critic_discount * critic_loss + actor_loss - entropy_beta * K.mean(-(newpolicy_probs * K.log(newpolicy_probs)))
在训练了几个 epoch 之后,熵项由于某种原因变成了“nan”。当熵变得未定义时,我曾经tf.Print()
看到新的策略概率,如下所示 -
新政策问题:[[6.1029973e-06 1.93471514e-08 0.000299338106...]...]
我不清楚为什么将这些小概率的日志记录为nan
. 知道如何防止这种情况吗?