什么是信用分配问题?

人工智能 强化学习 定义 信用分配问题
2021-11-09 20:08:01

在强化学习 (RL) 中,学分分配问题(CAP) 似乎是一个重要问题。什么是 CAP?为什么它与 RL 相关?

1个回答

在强化学习 (RL) 中,代理以时间步长与环境交互。在每个时间步,代理在特定状态下采取行动,环境发出感知或感知,由奖励观察组成,在完全可观察的 MDP 的情况下,它是下一个状态(环境和代理)。代理的目标是从长远来看最大化奖励。

(时间)信用分配问题 (CAP)(在 1961 年由 Marvin Minsky 在迈向人工智能的步骤中讨论)是确定导致特定结果的行为的问题。

例如,在足球比赛中,每一秒,每个足球运动员都会采取一个动作。在这种情况下,动作可以是例如“传球”、“运球”、“跑动”或“投篮”。在足球比赛结束时,结果可以是胜利、失败或平局。比赛结束后,教练与球员交谈并分析比赛和每位球员的表现。他讨论了每个球员对比赛结果的贡献。确定每个玩家对比赛结果的贡献的问题是(时间)信用分配问题。

这与 RL 有什么关系?为了从长远来看最大化奖励,代理需要确定哪些动作会导致这样的结果,这本质上是时间 CAP。

为什么称为信用分配问题?在这种情况下,信用这个词是价值的同义词。在 RL 中,导致更高最终累积奖励的动作应该比导致较低最终奖励的动作具有更大的价值(因此应该分配更多的“信用”)。

为什么 CAP 与 RL 相关?大多数 RL 代理尝试解决 CAP。例如,一个Q-学习代理尝试学习(最佳)价值函数。为此,它需要确定将导致每个状态中的最高值的操作。

(时间)CAP问题有一些变体。例如,结构 CAP,即为系统的每个结构组件(可能有助于最终结果)分配信用的问题。