当与神经网络一起玩的对手不遵守游戏规则(即作弊)时会发生什么?

人工智能 神经网络 强化学习 游戏-ai 零字母
2021-11-17 04:25:17

例如,如果 AlphaZero 与有权以任何她想要的方式移动棋子的对手一起下棋,或者在一个回合中移动超过 1 步?神经网络会适应这种情况吗,因为它适应了李世石在 2015 年做出的荒谬举动?

2个回答

对抗“作弊”时的行为取决于代理的训练方式,以及游戏与训练场景的不同程度。它还取决于代理的行为有多少是由培训驱动的,以及有多少是由即时计划驱动的。

一般来说,除非游戏机器人是专门为检测或应对被给予不公平优势的对手而编写的,否则它们将继续以与没有发生作弊相同的方式进行游戏,并假设仍然严格遵守规则。如果作弊玩家只做了一两个违反规则的动作,并且由此产生的游戏状态在游戏中仍然是可行的,那么代理应该继续玩好。如果智能体明显优于人类对手,它仍然可能获胜。

一个完整的、训练有素的特工不会适应“现在我的对手可以作弊”的风格。理论上,仍在接受训练的代理可以这样做,但它需要进行许多允许作弊的游戏才能学习应对具有不公平优势的对手的策略。

通过在比赛中向前看来计划的代理可以应对更不寻常/看不见的比赛状态——在训练中可能没有看到的事情。然而,他们仍然假设游戏玩法是为设计/训练的,除非这些规则被机器人设计者添加到计划中,否则他们无法适应新规则。例如,如果允许的作弊是有限数量的额外动作,但仅限于人类玩家,则其效果可以编码到计划引擎中,机器人将在其设计者的帮助下“适应”。

[AlphaGo] 适应了李世石在 2015 年做出的荒谬举动?

假设你指的是第四局,那么据我所知,AlphaGo 并没有“适应”这种玩法,在李世石设法将其置于失败的位置之后,它开始表现不佳,因为它无法从它所处的董事会位置,无法恢复。我不认为在这场比赛期间或之后为第 5 场比赛修补 AlphaGo 需要付出任何努力。

“神经网络会适应这种情况吗?”

不。

人类思维和神经网络之间的巨大功能差异:人类思维自己学习,NN 不是

如果我们称 NN 为带有层、权重的网络……这是一个静态系统,无法学习任何新东西。使神经网络变得智能的反向传播算法在神经网络本身之外运行,在不同的阶段,不同的硬件和软件,不是神经网络而是经典编程的软件。

因此,神经网络在玩耍、驾驶或任何其他为其设计的动作时永远不会学到任何东西。

如果在学习阶段完成了一些作弊,学习算法将学习并适应这些作弊,因此生成的 NN 配置将能够以最佳方式对这些作弊作出反应。但这实际上等同于学习一种不同的游戏,其中这些作弊是有效的动作。