强化学习中的政策和行动有什么区别?

人工智能 强化学习 术语 比较
2021-10-31 15:48:22

我对强化学习中的两个术语——行动和政策——感到困惑。据我所知,行动是:

这是代理在给定状态下所做的。

但是,我现在正在阅读的书(Hands-On Reinforcement Learning with Python)写了以下内容来解释策略:

我们将告诉我们在每个州做什么的实体定义为政策。

现在,我觉得政策和行动是一样的。那么两者有什么区别,我该如何正确分开使用它们呢?

1个回答

策略是将状态映射到所有可能动作的概率分布的函数。

因此,在典型的 Atari 游戏中,可能只有少数动作,由用于玩游戏的键表示。在这种情况下,强化学习器的策略可能由一个非常复杂的神经网络来表示,该网络将像素作为输入并给出动作概率作为输出。