我用 n 步 TD 预测实现了 Actor-Critic 来学习玩2048 游戏
对于环境,我不使用这个 2048 implementation。我使用一个没有任何图形界面的简单的,只是纯矩阵。神经网络的输入是游戏板的 log2。
我的神经网络的结构是:
- 输入层
- 16个单元的隐藏层
- 用于 Actor 的具有 4 个单位(上、下、左、右)的 Softmax 层
- 评论家的线性回归
隐藏层在actor和critic之间共享,因此相同的隐藏层(第2点)连接到actor的softmax层和critic的线性回归层。
原始游戏中的奖励是合并单元格的值。比如两个4合并,那么reward是8。我的reward函数几乎是一样的,只是我取它的log2。
我尝试了这些参数,还调整了学习率,,但我无法取得任何好的结果。
你能推荐我应该改变什么吗?