在标准强化学习中,奖励函数由 AI 设计者指定,并且在 AI 代理之外。代理试图找到一种收集更高累积折扣奖励的行为。在进化强化学习中,奖励函数由智能体的遗传密码指定,并在模拟达尔文进化中经过多代进化。在这里,人工智能代理也不能直接调整奖励函数,而是调整其行为以获取更高的奖励。为什么这两种方法都可以防止 AI 代理随意改变其奖励功能?如果我们允许 AI 代理这样做会发生什么?
为什么 AI 代理不能直接调整奖励函数?
人工智能
强化学习
奖励
2021-11-11 03:28:08
1个回答
为什么这两种方法都可以防止 AI 代理随意改变其奖励功能?
在用于最优控制的 RL 中,奖励函数是问题表述的一部分。也就是说,它描述了代理的目标。有时这显然不应该在代理的控制之下,如果奖励是它应该最大化的真实世界的数量 - 例如它赚取利润的金额 - 那么代理可以任意声明是没有意义的数量与它观察到的东西不同。
其他时候,有一些灵活性,需要在短时间内逃离迷宫的代理可能在迷宫内的每个时间步获得 -1 奖励或每个时间步 -0.1 奖励,或者在应用折扣因子的情况下逃脱 +1 奖励. 然而,在描述不同的问题之前,灵活性只能走这么远。将每个时间步的 -1 更改为每个时间步的 +1 意味着代理的目标从逃跑切换到留在迷宫中。
一般来说,将 MDP 中的所有奖励乘以某个正常数不会改变强化学习问题。有时可能值得进行这种缩放以使特定方法(例如神经网络)更容易有效地工作。但是,这不是直接置于智能体控制之下的东西,而是像神经网络中隐藏层数这样的超参数。作为一个超参数,通常奖励缩放是非常灵活的,不值得花费太多精力进行调整——这与神经网络的架构不同。
如果我们允许 AI 代理这样做会发生什么?
除非对允许更改的内容施加重大限制,否则代理将通过做任何它“想要”的事情来获得它“想要”的任何数量的奖励,只要对奖励函数允许的更改施加任何限制。通常在 RL 中,这将导致代理或多或少地随机行动,同时在每次迭代中获得越来越高的奖励。或者换句话说,一个不尝试解决任何问题的代理。
有一些特殊情况可以调整或学习奖励函数。一种常见的情况是逆强化学习,其中观察到代理的活动,假设它正在解决类似 MDP 的问题,并且您有兴趣了解它如何解决它,包括它使用的奖励函数。奖励函数必须通过拟合代理的观察来学习。
其它你可能感兴趣的问题