我正在学习有关 REINFORCE 算法的课程来解决 Cartpole/Pong/etc(使用 AIGym),并且每个人都使用 categorical_crossentropy 作为损失函数。
令我困惑的是 categorical_crossentropy期望 1-hot 编码设置作为其真正的参数。传入的状态不是 1-hot 编码的,它们只是当时宇宙状态的数字表示。为什么这行得通?
我正在学习有关 REINFORCE 算法的课程来解决 Cartpole/Pong/etc(使用 AIGym),并且每个人都使用 categorical_crossentropy 作为损失函数。
令我困惑的是 categorical_crossentropy期望 1-hot 编码设置作为其真正的参数。传入的状态不是 1-hot 编码的,它们只是当时宇宙状态的数字表示。为什么这行得通?
该算法在计算损失之前将您的分类标签转换为一个热编码。所以你不必背负重担。