作为我论文的一部分,我正在使用 RL 进行零和游戏来训练代理。
游戏是实时游戏,pong的派生词,可以想象打乒乓球时双方都是桌上足球。
在我看来,这是一个具有完美信息的 MDP,因为我使用环境提供的传感器数据来了解杆的准确线性和角度位置以及球的位置、方向和速度。
这些信息将用作特征向量,将传递到代理网络。
我考虑过使用自我游戏来提高挂钟时间的训练速度,现在不太确定这个游戏是否是一个完美的信息 MDP,因为涉及到两个玩家(双方相同的网络)和策略第二个玩家没有出现在馈送到网络的观察中。
所以游戏可能是一个完美的信息MDP,但是涉及到两个“玩家”,还是这样吗?还是涉及多个学习者的事实只会使环境更加不稳定,而不是部分可观察?我还找到了一篇相关的论文:https ://www.researchgate.net/publication/220301660_The_world_of_Independent_learners_is_not_Markovian