我正在尝试使用深度神经网络为我的 Agar.io 克隆实现 AI 机器人。
但是,我正在为 AI 机器人的状态和动作空间而苦苦挣扎。
因为机器人可以用实数表示位置和速度,我可以说状态空间是连续的吗?
对于动作空间,我在想类似的东西(velocityX,velocityY,“split to half”,“eject mass”)。
我的神经网络的输入层中输入节点的数量应该是多少?这些输入是什么(观察、奖励)?
随着玩家数量和 AI 机器人数量的变化,如何训练一个输入节点数量变化的动态网络?
对于输出,我怎样才能获得像速度这样的连续动作输出?
作为参考,您可以从这个简短的 youtube 视频中了解游戏规则:
琼脂的 20 条规则和游戏机制(如何玩 Agar.io)