人工智能 - 什么是代理奖励功能？ - 吾爱随笔录 - 问答

什么是代理奖励功能？

人工智能强化学习定义文件奖励函数

2021-11-12 10:26:21

我的理解是，他们以某种方式调整目标以使其更容易满足，而不改变奖励功能。

...观察到的代理奖励函数是奖励设计问题的近似解

（来源：反向奖励设计）

但是我很难理解它们如何符合整体奖励目标，并且被其中的一些例子弄糊涂了。我的想法是它们是小的奖励函数（如解决稀疏奖励的情况），最终导致主要目标。但是下面的声明，来自这篇文章，让我质疑这一点。

代理奖励函数的典型例子包括对看起来有希望的行为的“部分信用”；人为的高贴现率和谨慎的奖励塑造；...

它们是什么，如何在 RL 问题中识别和整合代理奖励？
在上面的例子中，高贴现率如何形成代理奖励？

我也很好奇它们如何被用作多重奖励的来源

1个回答

在您引用的论文Inverse Reward Design (2017) 中，作者实际上定义了“代理奖励函数”的含义。

我们在一个概率模型中将其形式化，该模型将代理（设计）奖励与真实奖励联系起来

因此，代理奖励函数是人类设计的奖励函数，它可能不一定是他/她想要的奖励函数（即它可能是错误指定的奖励函数），因为人类可能忘记了建模/合并代理可能面临的某些（人类无法预测的）场景或情况。因此，“代理”一词的这种用法与计算机科学中该词的一般用法一致，即“代理奖励函数”是一种奖励函数，用于代替预期的（最佳）奖励函数。

其它你可能感兴趣的问题

上一篇在损失函数中多次评估模型？这是强化学习吗？下一篇DQN 不学习，不向目标迈进