我已经看到了几个在欺骗性环境或游戏中部署 RL 代理的示例,并且代理无论如何都学会了执行其任务。反过来呢?可以使用 RL 来创建欺骗性代理吗?一个例子可以是问代理一个问题“这是什么颜色?” 例如,它会以谎言回答。
我对更高层次的“欺骗”感兴趣,而不是一个简单的 if-else 程序,它不会告诉你你需要知道什么。如果您知道任何算法或阅读材料,请随时分享。
例子:
关于代理和环境的详细信息:代理接收基于文本的输入(基于文本的任务)。为了简单起见,我们假设有一个输入控件,并且只允许使用某些关键字执行一组特定的任务:“显示最新消息”,并且代理打印上个月的一些内容(不是最近的,但已经足够好了回答)。为了进一步简化输入,使其不会变成 100% 的 NLP 问题;假设代理“知道”在收到关键字“ show me ”时需要做什么。
另一个类似的用例是有两个代理。第一个代理行为正常,按预期执行任务,但如果它是 100% 诚实的,另一个代理会受到惩罚,这意味着它将训练另一个代理具有欺骗性。