人工智能 - 为什么 AI 代理不能直接调整奖励函数？ - 吾爱随笔录

为什么 AI 代理不能直接调整奖励函数？

人工智能强化学习奖励

2021-11-11 03:28:08

在标准强化学习中，奖励函数由 AI 设计者指定，并且在 AI 代理之外。代理试图找到一种收集更高累积折扣奖励的行为。在进化强化学习中，奖励函数由智能体的遗传密码指定，并在模拟达尔文进化中经过多代进化。在这里，人工智能代理也不能直接调整奖励函数，而是调整其行为以获取更高的奖励。为什么这两种方法都可以防止 AI 代理随意改变其奖励功能？如果我们允许 AI 代理这样做会发生什么？

1个回答

为什么这两种方法都可以防止 AI 代理随意改变其奖励功能？

在用于最优控制的 RL 中，奖励函数是问题表述的一部分。也就是说，它描述了代理的目标。有时这显然不应该在代理的控制之下，如果奖励是它应该最大化的真实世界的数量 - 例如它赚取利润的金额 - 那么代理可以任意声明是没有意义的数量与它观察到的东西不同。

其他时候，有一些灵活性，需要在短时间内逃离迷宫的代理可能在迷宫内的每个时间步获得 -1 奖励或每个时间步 -0.1 奖励，或者在应用折扣因子的情况下逃脱 +1 奖励. 然而，在描述不同的问题之前，灵活性只能走这么远。将每个时间步的 -1 更改为每个时间步的 +1 意味着代理的目标从逃跑切换到留在迷宫中。

一般来说，将 MDP 中的所有奖励乘以某个正常数不会改变强化学习问题。有时可能值得进行这种缩放以使特定方法（例如神经网络）更容易有效地工作。但是，这不是直接置于智能体控制之下的东西，而是像神经网络中隐藏层数这样的超参数。作为一个超参数，通常奖励缩放是非常灵活的，不值得花费太多精力进行调整——这与神经网络的架构不同。

如果我们允许 AI 代理这样做会发生什么？

除非对允许更改的内容施加重大限制，否则代理将通过做任何它“想要”的事情来获得它“想要”的任何数量的奖励，只要对奖励函数允许的更改施加任何限制。通常在 RL 中，这将导致代理或多或少地随机行动，同时在每次迭代中获得越来越高的奖励。或者换句话说，一个不尝试解决任何问题的代理。

有一些特殊情况可以调整或学习奖励函数。一种常见的情况是逆强化学习，其中观察到代理的活动，假设它正在解决类似 MDP 的问题，并且您有兴趣了解它如何解决它，包括它使用的奖励函数。奖励函数必须通过拟合代理的观察来学习。

其它你可能感兴趣的问题

上一篇激活函数的数学定义是什么？下一篇是否有用于加权图的图卷积网络的开源实现？