我正在使用 RL 在游戏 Connect4 上训练网络。它很快就知道 4 个连接的部分是好的。它为此获得 1 的奖励。所有其他动作都奖励零。
人工智能试图阻止对手获胜需要相当长的时间。
有没有办法进一步加强这一点?
我考虑过在获胜棋步之前对下棋给予负奖励。考虑到这一点,我得出的结论是,这是一个坏主意。总会有一个较松的人(平局除外),因此失败的玩家总会有最后一步。这个应该不是坏的。错误可能更早发生。
有没有办法提高对手的这种意识?还是只需要训练更多?
我不确定奖励是否会以鼓励这种行为的方式传播回来。