什么是代理奖励功能?
人工智能
强化学习
定义
文件
奖励函数
2021-11-12 10:26:21
1个回答
在您引用的论文Inverse Reward Design (2017) 中,作者实际上定义了“代理奖励函数”的含义。
我们在一个概率模型中将其形式化,该模型将代理(设计)奖励与真实奖励联系起来
因此,代理奖励函数是人类设计的奖励函数,它可能不一定是他/她想要的奖励函数(即它可能是错误指定的奖励函数),因为人类可能忘记了建模/合并代理可能面临的某些(人类无法预测的)场景或情况。因此,“代理”一词的这种用法与计算机科学中该词的一般用法一致,即“代理奖励函数”是一种奖励函数,用于代替预期的(最佳)奖励函数。
其它你可能感兴趣的问题